From 84df0c2bdff651d50141080ff826b3289fa99875 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Wed, 8 Mar 2023 10:44:56 +1000
Subject: [PATCH 01/15] intial commit

---
 rees46_schema_modified.pbtxt                |  227 ++++
 train_and_save_model_for_benchmarking.ipynb | 1200 +++++++++++++++++++
 2 files changed, 1427 insertions(+)
 create mode 100644 rees46_schema_modified.pbtxt
 create mode 100644 train_and_save_model_for_benchmarking.ipynb

diff --git a/rees46_schema_modified.pbtxt b/rees46_schema_modified.pbtxt
new file mode 100644
index 0000000000..96960d23e6
--- /dev/null
+++ b/rees46_schema_modified.pbtxt
@@ -0,0 +1,227 @@
+feature {
+  name: "sess_pid_seq"
+  value_count {
+    min: 2
+  }
+  type: INT
+  int_domain {
+    name: "sess_pid_seq"
+    min: 1
+    max: 390000
+    is_categorical: true
+  }
+  annotation {
+    tag: "item_id"
+    tag: "list"
+    tag: "categorical"
+    tag: "item"
+  }
+}
+
+feature {
+  name: "sess_ccid_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: INT
+  int_domain {
+    name: "sess_ccid_seq"
+    min: 1
+    max: 150
+    is_categorical: true
+  }
+  annotation {
+    tag: "list"
+    tag: "categorical"
+    tag: "item"
+  }
+}
+
+feature {
+  name: "sess_csid_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: INT
+  int_domain {
+    name: "sess_csid_seq"
+    min: 1
+    max: 1400
+    is_categorical: true
+  }
+  annotation {
+    tag: "list"
+    tag: "categorical"
+    tag: "item"
+  }
+}
+
+
+feature {
+  name: "sess_bid_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: INT
+  int_domain {
+    name: "sess_bid_seq"
+    min: 1
+    max: 7000
+    is_categorical: true
+  }
+  annotation {
+    tag: "list"
+    tag: "categorical"
+    tag: "item"
+  }
+}
+
+feature {
+  name: "sess_price_log_norm_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_price_log_norm_seq"
+    min: 0.0
+    max: 10000.0
+  }
+  annotation {
+    tag: "item"
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_relative_price_to_avg_category_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_relative_price_to_avg_category_seq"
+    min: -10000.0
+    max: 10000.0
+  }
+  annotation {
+    tag: "item"
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_prod_recency_days_log_norm_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_prod_recency_days_log_norm_seq"
+    min: -10000.0
+    max: 10000.0
+  }
+  annotation {
+    tag: "item"
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_et_hour_sin_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_et_hour_sin_seq"
+    min: -1.0
+    max: 1.0
+  }
+  annotation {
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_et_hour_cos_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_et_hour_cos_seq"
+    min: -1.0
+    max: 1.0
+  }
+  annotation {
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_et_dayofweek_sin_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_et_dayofweek_sin_seq"
+    min: -1.0
+    max: 1.0
+  }
+  annotation {
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_et_dayofweek_cos_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_et_dayofweek_cos_seq"
+    min: -1.0
+    max: 1.0
+  }
+  annotation {
+    tag: "list"
+    tag: "continuous"
+  }
+}
+
+feature {
+  name: "sess_etime_seq"
+  value_count {
+    min: 2
+    max: 20
+  }
+  type: FLOAT
+  float_domain {
+    name: "sess_etime_seq"
+    min: 0
+    max: 0
+  }
+  annotation {
+    tag: "time"
+    tag: "list"
+  }
+}
diff --git a/train_and_save_model_for_benchmarking.ipynb b/train_and_save_model_for_benchmarking.ipynb
new file mode 100644
index 0000000000..98a6460224
--- /dev/null
+++ b/train_and_save_model_for_benchmarking.ipynb
@@ -0,0 +1,1200 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "54d6ef61",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " + 20a40d72...a92bdc24 tf/transformer-api -> origin/tf/transformer-api  (forced update)\n",
+      "Warning: you are leaving 5 commits behind, not connected to\n",
+      "any of your branches:\n",
+      "\n",
+      "  20a40d72 fix masking of sequence-predict-next transform\n",
+      "  dbd2d9c8 include PR comments\n",
+      "  1e642e87 update example notebook with the new API\n",
+      "  e99e7985 add support of ragged tensor to weight tying\n",
+      "  e87913d1 implement new design of the Transformer API on top of the release-23.02 branch\n",
+      "\n",
+      "If you want to keep them by creating a new branch, this may be a good time\n",
+      "to do so with:\n",
+      "\n",
+      " git branch <new-branch-name> 20a40d72\n",
+      "\n",
+      "HEAD is now at a92bdc24 adjust sample_weights to targets shape\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==0.9.0+116.ga92bdc24) (0.0.2+41.gdbf8816)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==0.9.0+116.ga92bdc24) (0.9.0+54.g29c7587a)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.5)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.5.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (22.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.64.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.12.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.19.6)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.2.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (8.0.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.8.2)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.22.4)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (5.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.12.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.4.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.7.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.1)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.4)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (8.1.3)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.2.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.26.13)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (5.9.4)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.1.2)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.2.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.1.1)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0.4)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.0.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0.1)\n",
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-0.9.0+116.ga92bdc24-py3-none-any.whl size=374626 sha256=0b09335e9fef4f6221003e7ba9eb2e1e24b4bfdfd433c8211c5ea32aa2856aed\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-168j85q4/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 0.9.0+114.g20a40d72\n",
+      "    Uninstalling merlin-models-0.9.0+114.g20a40d72:\n",
+      "      Successfully uninstalled merlin-models-0.9.0+114.g20a40d72\n",
+      "Successfully installed merlin-models-0.9.0+116.ga92bdc24\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Already on 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      " * branch              main       -> FETCH_HEAD\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Already up to date.\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.12.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (3.19.6)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (22.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (0.56.4)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.7.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.3.5)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.7.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (8.0.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.5.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.2.5)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.3.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (45.2.0)\n",
+      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (1.22.4)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (5.2.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (5.9.4)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (0.12.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (6.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (6.1)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (8.1.3)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.7.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.26.13)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.4.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (3.1.2)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (2022.7)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.3.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (1.2.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.14.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (6.0.4)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (6.0.1)\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+54.g29c7587a-py3-none-any.whl size=152409 sha256=cf0f970219f2ae5dcae772911442f0366c3b3400aaac27967ba709e9c9ac1a22\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zn63nwq_/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n",
+      "Installing collected packages: merlin-core\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 0.9.0+54.g29c7587a\n",
+      "    Uninstalling merlin-core-0.9.0+54.g29c7587a:\n",
+      "      Successfully uninstalled merlin-core-0.9.0+54.g29c7587a\n",
+      "Successfully installed merlin-core-0.9.0+54.g29c7587a\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Already on 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/NVTabular\n",
+      " * branch              main       -> FETCH_HEAD\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Already up to date.\n",
+      "Processing /nvtabular\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+54.g29c7587a)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.2+41.gdbf8816)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Building wheels for collected packages: nvtabular\n",
+      "  Building wheel for nvtabular (PEP 517): started\n",
+      "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=20845f4d83c616304250353b73943fa82e251b9514cbd62b7387b83a6d21efe8\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-dt3f85gj/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "Successfully built nvtabular\n",
+      "Installing collected packages: nvtabular\n",
+      "  Attempting uninstall: nvtabular\n",
+      "    Found existing installation: nvtabular 1.6.0+42.g9b186ee9\n",
+      "    Uninstalling nvtabular-1.6.0+42.g9b186ee9:\n",
+      "      Successfully uninstalled nvtabular-1.6.0+42.g9b186ee9\n",
+      "Successfully installed nvtabular-1.6.0+42.g9b186ee9\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Already on 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      " * branch            main       -> FETCH_HEAD\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Already up to date.\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+54.g29c7587a)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
+      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.2+41.gdbf8816)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=c9ed3baf0f65ac381e50f14a63222abcbac99f78a39f4f04bd7e6828a7ed9c16\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zfooq_xi/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 0.7.0+61.g329cba4\n",
+      "    Uninstalling merlin-systems-0.7.0+61.g329cba4:\n",
+      "      Successfully uninstalled merlin-systems-0.7.0+61.g329cba4\n",
+      "Successfully installed merlin-systems-0.7.0+61.g329cba4\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Already on 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * branch            main       -> FETCH_HEAD\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Already up to date.\n",
+      "Processing /dataloader\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+41.gdbf8816) (0.9.0+54.g29c7587a)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.56.4)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.5.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.19.6)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.12.0)\n",
+      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.1)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.1.3)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.1.2)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.39.1)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.57.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.1.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.0.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=60948b9af68c37dfacd1e48a9fdaaad2f9c78225e14116de0d4b643853d839bb\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-fwvmtvqd/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n",
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 0.0.2+41.gdbf8816\n",
+      "    Uninstalling merlin-dataloader-0.0.2+41.gdbf8816:\n",
+      "      Successfully uninstalled merlin-dataloader-0.0.2+41.gdbf8816\n",
+      "Successfully installed merlin-dataloader-0.0.2+41.gdbf8816\n",
+      "Requirement already satisfied: matplotlib in /usr/local/lib/python3.8/dist-packages (3.7.1)\n",
+      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
+      "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (0.11.0)\n",
+      "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (4.39.0)\n",
+      "Requirement already satisfied: pillow>=6.2.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (9.4.0)\n",
+      "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
+      "Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.4.4)\n",
+      "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.0.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
+      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
+      "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
+      "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
+    "cd /core && git checkout main && git pull origin main && pip install .\n",
+    "cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
+    "cd /systems && git checkout main && git pull origin main && pip install .\n",
+    "cd /dataloader && git checkout main && git pull origin main && pip install .\n",
+    "pip install matplotlib"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "152aee86",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.6.4)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
+      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Downloading...\n",
+      "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "To: /workspace/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.42MB/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
+      "Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Hit:3 http://archive.ubuntu.com/ubuntu focal InRelease\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Fetched 336 kB in 3s (129 kB/s)\n",
+      "Reading package lists...\n",
+      "Reading package lists...\n",
+      "Building dependency tree...\n",
+      "Reading state information...\n",
+      "unzip is already the newest version (6.0-25ubuntu1.1).\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 83 not upgraded.\n",
+      "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
+      "   creating: ecom_dataset/0001/\n",
+      "  inflating: ecom_dataset/0001/valid.parquet  \n",
+      " extracting: ecom_dataset/0001/.zip  \n",
+      "  inflating: ecom_dataset/0001/train.parquet  \n",
+      "  inflating: ecom_dataset/0001/test.parquet  \n",
+      "   creating: ecom_dataset/0002/\n",
+      "  inflating: ecom_dataset/0002/valid.parquet  \n",
+      "  inflating: ecom_dataset/0002/train.parquet  \n",
+      "  inflating: ecom_dataset/0002/test.parquet  \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-08 00:23:08.749959: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-08 00:23:11.232785: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:11.233226: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:11.233386: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-08 00:23:11.674938: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-08 00:23:11.675977: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:11.676191: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:11.676346: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:12.417852: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:12.418073: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:12.418234: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-08 00:23:12.418351: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-08 00:23:12.418418: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "81e7f635",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this is only temporary, we can align the functionality with the CI script later on\n",
+    "\n",
+    "DATA_FOLDER = os.environ.get(\n",
+    "    \"DATA_FOLDER\", \n",
+    "    'ecom_dataset/0002'\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(os.path.join(DATA_FOLDER, \"train.parquet\"))\n",
+    "valid = Dataset(os.path.join(DATA_FOLDER, \"valid.parquet\"))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "792daa9d",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>name</th>\n",
+       "      <th>tags</th>\n",
+       "      <th>dtype</th>\n",
+       "      <th>is_list</th>\n",
+       "      <th>is_ragged</th>\n",
+       "      <th>properties.value_count.min</th>\n",
+       "      <th>properties.value_count.max</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>()</td>\n",
+       "      <td>DType(name='int32', element_type=&lt;ElementType....</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "      <td>0</td>\n",
+       "      <td>None</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "[{'name': 'sess_pid_seq', 'tags': set(), 'properties': {'value_count': {'min': 0, 'max': None}}, 'dtype': DType(name='int32', element_type=<ElementType.Int: 'int'>, element_size=32, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=0, max=None)))), 'is_list': True, 'is_ragged': True}]"
+      ]
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train.schema.select_by_name('sess_pid_seq')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of hyperparams I took from the CI script in T4Rec\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "mlp_block = mm.MLPBlock(\n",
+    "                [128,d_model],\n",
+    "                activation='relu',\n",
+    "                no_activation_last_layer=True,\n",
+    "            )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "7f15a0a0",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "schema = TensorflowMetadata.from_proto_text_file(\n",
+    "    './',\n",
+    "    file_name='rees46_schema_modified.pbtxt'\n",
+    ").to_merlin_schema()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "74ccc9a9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train.schema = schema"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "b2aa0beb",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'sess_pid_seq': (<tf.Tensor: shape=(45, 1), dtype=int32, numpy=\n",
+      "array([[ 1235],\n",
+      "       [ 4459],\n",
+      "       [27600],\n",
+      "       [ 3457],\n",
+      "       [ 8364],\n",
+      "       [ 7876],\n",
+      "       [ 3457],\n",
+      "       [ 1343],\n",
+      "       [  185],\n",
+      "       [  206],\n",
+      "       [  240],\n",
+      "       [  622],\n",
+      "       [ 7583],\n",
+      "       [    3],\n",
+      "       [    7],\n",
+      "       [    3],\n",
+      "       [ 4458],\n",
+      "       [ 2574],\n",
+      "       [ 5371],\n",
+      "       [ 9683],\n",
+      "       [ 8344],\n",
+      "       [ 1861],\n",
+      "       [ 6581],\n",
+      "       [  303],\n",
+      "       [  709],\n",
+      "       [ 1448],\n",
+      "       [ 1852],\n",
+      "       [ 2730],\n",
+      "       [23721],\n",
+      "       [ 3932],\n",
+      "       [14649],\n",
+      "       [ 6013],\n",
+      "       [ 5585],\n",
+      "       [ 3964],\n",
+      "       [ 1452],\n",
+      "       [ 6581],\n",
+      "       [    2],\n",
+      "       [    7],\n",
+      "       [   12],\n",
+      "       [   24],\n",
+      "       [   51],\n",
+      "       [   72],\n",
+      "       [   54],\n",
+      "       [   23],\n",
+      "       [  326]], dtype=int32)>, <tf.Tensor: shape=(5, 1), dtype=int32, numpy=\n",
+      "array([[ 8],\n",
+      "       [ 5],\n",
+      "       [ 3],\n",
+      "       [20],\n",
+      "       [ 9]], dtype=int32)>), 'sess_ccid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff785b03a0>, 'sess_csid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7ba5beb0>, 'sess_bid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7858ca30>, 'sess_price_log_norm_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3dc0>, 'sess_relative_price_to_avg_category_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3940>, 'sess_prod_recency_days_log_norm_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3610>, 'sess_et_hour_sin_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d31c0>, 'sess_et_hour_cos_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34bd90>, 'sess_et_dayofweek_sin_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34bb80>, 'sess_et_dayofweek_cos_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34b7c0>, 'sess_etime_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34b3d0>}\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.loader.tensorflow import Loader\n",
+    "\n",
+    "data = train\n",
+    "dataloader = Loader(data, batch_size=5)\n",
+    "batch = next(dataloader)\n",
+    "print(batch[0])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e64a9c0d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# import nvtabular as nvt\n",
+    "\n",
+    "# ops = ['sess_pid_seq'] >> nvt.ops.Categorify()\n",
+    "\n",
+    "# wf = nvt.Workflow(ops)\n",
+    "# train = wf.fit_transform(train)\n",
+    "# valid = wf.transform(valid)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "292ef9ba",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "(128, None, 192)\n"
+     ]
+    }
+   ],
+   "source": [
+    "batch = mm.sample_batch(train, batch_size=batch_size, include_targets=False, to_ragged=True)\n",
+    "print(input_block(batch).shape)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 35,
+   "id": "34c739b3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train.schema = train.schema.select_by_name('sess_pid_seq')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 36,
+   "id": "5a4c7ca3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "input_block = mm.InputBlockV2(\n",
+    "    train.schema.select_by_name('sess_pid_seq'),    \n",
+    "    embeddings=mm.Embeddings(\n",
+    "        train.schema.select_by_name('sess_pid_seq'), \n",
+    "        sequence_combiner=None,\n",
+    "        dim=d_model\n",
+    "        )\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 37,
+   "id": "14c35b2a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 38,
+   "id": "866f3249",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "dense_block = mm.SequentialBlock(\n",
+    "    input_block,\n",
+    "    mlp_block,\n",
+    "    xlnet_block\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 39,
+   "id": "288d08df",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "mlp_block2 = mm.MLPBlock(\n",
+    "                [128,d_model],\n",
+    "                activation='relu',\n",
+    "                no_activation_last_layer=True,\n",
+    "            )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 40,
+   "id": "064ea5ec",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "prediction_task = mm.CategoricalOutput(\n",
+    "    to_call=input_block[\"categorical\"][target],\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 41,
+   "id": "6c008e16",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 42,
+   "id": "49b12d31",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "optimizer = tf.keras.optimizers.Adam(\n",
+    "    learning_rate=learning_rate,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 43,
+   "id": "502ef8a3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "n_epoch = 1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 44,
+   "id": "d84a30d3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[4])\n",
+    "             )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9a9611ab",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# model_transformer.fit(\n",
+    "#     train,\n",
+    "#     batch_size=batch_size,\n",
+    "#     epochs=n_epoch,\n",
+    "#     pre=mm.SequencePredictRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    "# )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 46,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "665/665 [==============================] - 74s 107ms/step - loss: 8.9015 - recall_at_4: 0.0224 - mrr_at_4: 0.0129 - ndcg_at_4: 0.0153 - map_at_4: 0.0129 - precision_at_4: 0.0056 - regularization_loss: 0.0000e+00 - loss_batch: 8.8957\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "<keras.callbacks.History at 0x7efd2854ff70>"
+      ]
+     },
+     "execution_count": 46,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 47,
+   "id": "7bf839e3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 49,
+   "id": "15ccc448",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 8s 40ms/step - loss: 8.8326 - recall_at_4: 0.0502 - mrr_at_4: 0.0319 - ndcg_at_4: 0.0365 - map_at_4: 0.0319 - precision_at_4: 0.0126 - regularization_loss: 0.0000e+00 - loss_batch: 8.8396\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.832579612731934,\n",
+       " 'recall_at_4': 0.05087455362081528,\n",
+       " 'mrr_at_4': 0.030891483649611473,\n",
+       " 'ndcg_at_4': 0.0359138660132885,\n",
+       " 'map_at_4': 0.030891483649611473,\n",
+       " 'precision_at_4': 0.01271863840520382,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.142295837402344}"
+      ]
+     },
+     "execution_count": 49,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

From 6560270f6dfcb12ecae74108e6195f37ec5ecde3 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Thu, 9 Mar 2023 16:17:38 +1000
Subject: [PATCH 02/15] update

---
 reproducing_T4Rec_results.ipynb             | 1538 +++++++++++++++++++
 train_and_save_model_for_benchmarking.ipynb |    2 +-
 2 files changed, 1539 insertions(+), 1 deletion(-)
 create mode 100644 reproducing_T4Rec_results.ipynb

diff --git a/reproducing_T4Rec_results.ipynb b/reproducing_T4Rec_results.ipynb
new file mode 100644
index 0000000000..7b066f2f65
--- /dev/null
+++ b/reproducing_T4Rec_results.ipynb
@@ -0,0 +1,1538 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "7f851659",
+   "metadata": {},
+   "source": [
+    "These are logs from training the following model from the CI script from T4Rec (the trianing was for 5 epochs):\n",
+    "\n",
+    "`### XLNet (MLM) - Item Id feature\n",
+    "python3 transf_exp_main_modified.py --output_dir ./tmp/ --overwrite_output_dir --do_train --do_eval --validate_every 10 --logging_steps 20 --save_steps 0 --data_path $DATA_PATH --features_schema_path $FEATURE_SCHEMA_PATH --fp16 --data_loader_engine merlin --start_time_window_index 1 --final_time_window_index 2 --time_window_folder_pad_digits 4 --model_type xlnet --loss_type cross_entropy --per_device_eval_batch_size 128 --similarity_type concat_mlp --tf_out_activation tanh --inp_merge mlp --learning_rate_warmup_steps 0 --learning_rate_schedule linear_with_warmup --hidden_act gelu --num_train_epochs $NUM_EPOCHS --dataloader_drop_last --compute_metrics_each_n_steps 1 --session_seq_length_max 20 --eval_on_last_item_seq_only --mf_constrained_embeddings --layer_norm_featurewise --attn_type bi --mlm --per_device_train_batch_size 128 --learning_rate 0.0006667377132554976 --dropout 0.0 --input_dropout 0.1 --weight_decay 3.910060265627374e-05 --d_model 192 --item_embedding_dim 448 --n_layer 3 --n_head 16 --label_smoothing 0.0 --stochastic_shared_embeddings_replacement_prob 0.1 --item_id_embeddings_init_std 0.11 --other_embeddings_init_std 0.02 --mlm_probability 0.30000000000000004 --eval_on_test_set --seed 100 --report_to none\n",
+    "`"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c0369401",
+   "metadata": {},
+   "source": [
+    "And here are the logs and the results, maybe reproducing that is something that we could work towards (the XLNet with MLM is what I used for benchmarking T4Rec, starting with it would be great)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e26066be",
+   "metadata": {},
+   "source": [
+    "03/09/2023 04:21:44 - WARNING - __main__ -   Process rank: -1, device: cuda:0, n_gpu: 1, distributed training: False, 16-bits training: True\n",
+    "03/09/20`23 04:21:45 - WARNING - transformers4rec -   Projecting inputs of NextItemPredictionTask to'448' As weight tying requires the input dimension '192' to be equal to the item-id embedding dimension '448'\n",
+    "[INFO|trainer.py:434] 2023-03-09 04:21:45,787 >> Using amp fp16 backend\n",
+    "03/09/2023 04:21:45 - INFO - examples.t4rec_paper_experiments.t4r_paper_repro.exp_outputs -   Training, Model and Data parameters {'data_path': '/transformers4rec/examples/t4rec_paper_experiments/t4r_paper_repro/', 'features_schema_path': '/workspace/examples/t4rec_paper_experiments/datasets_configs/ecom_rees46/rees46_schema.pbtxt', 'start_time_window_index': 1, 'final_time_window_index': 2, 'time_window_folder_pad_digits': 4, 'no_incremental_training': False, 'training_time_window_size': 0, 'use_side_information_features': False, 'input_features_aggregation': 'concat', 'model_type': 'xlnet', 'tf_out_activation': 'tanh', 'mlm': True, 'mlm_probability': 0.30000000000000004, 'plm': False, 'plm_probability': 0.25, 'plm_max_span_length': 5, 'plm_mask_input': False, 'plm_permute_all': False, 'rtd': False, 'rtd_sample_from_batch': False, 'rtd_use_batch_interaction': False, 'rtd_discriminator_loss_weight': 50, 'rtd_generator_loss_weight': 1, 'rtd_tied_generator': False, 'd_model': 192, 'n_layer': 3, 'n_head': 16, 'layer_norm_eps': 1e-12, 'initializer_range': 0.02, 'hidden_act': 'gelu', 'dropout': 0.0, 'summary_type': 'last', 'num_hidden_groups': 1, 'inner_group_num': 1, 'eval_on_last_item_seq_only': True, 'train_on_last_item_seq_only': False, 'mf_constrained_embeddings': True, 'item_embedding_dim': 448, 'numeric_features_project_to_embedding_dim': 0, 'numeric_features_soft_one_hot_encoding_num_embeddings': 0, 'stochastic_shared_embeddings_replacement_prob': 0.1, 'softmax_temperature': 1.0, 'label_smoothing': 0.0, 'embedding_dim_from_cardinality_multiplier': 2.0, 'item_id_embeddings_init_std': 0.11, 'other_embeddings_init_std': 0.02, 'layer_norm_featurewise': True, 'attn_type': 'bi', 'input_dropout': 0.1, 'loss_type': 'cross_entropy', 'similarity_type': 'concat_mlp', 'inp_merge': 'mlp', 'learning_rate_warmup_steps': 0, 'avg_session_length': None, 'output_dir': './tmp/', 'overwrite_output_dir': True, 'do_train': True, 'do_eval': True, 'do_predict': False, 'prediction_loss_only': False, 'per_device_train_batch_size': 128, 'per_device_eval_batch_size': 128, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': None, 'learning_rate': 0.0006667377132554976, 'weight_decay': 3.910060265627374e-05, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5.0, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': -1, 'log_level_replica': -1, 'log_on_each_node': True, 'logging_dir': './tmp/runs/Mar09_04-21-42_206f0524dae0', 'logging_first_step': False, 'logging_steps': 20, 'logging_nan_inf_filter': True, 'save_steps': 0, 'save_total_limit': None, 'save_on_each_node': False, 'no_cuda': False, 'seed': 100, 'fp16': True, 'fp16_opt_level': 'O1', 'fp16_backend': 'auto', 'fp16_full_eval': False, 'local_rank': -1, 'xpu_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': True, 'eval_steps': None, 'dataloader_num_workers': 0, 'past_index': -1, 'run_name': None, 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'sharded_ddp': [], 'deepspeed': None, 'label_smoothing_factor': 0.0, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': [], 'ddp_find_unused_parameters': None, 'dataloader_pin_memory': True, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_token': None, 'gradient_checkpointing': False, 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': None, '_n_gpu': 1, 'mp_parameters': '', 'max_sequence_length': 20, 'shuffle_buffer_size': 0, 'data_loader_engine': 'merlin', 'eval_on_test_set': True, 'eval_steps_on_train_set': 20, 'predict_top_k': 0, 'learning_rate_num_cosine_cycles_by_epoch': 1.25, 'log_predictions': False, 'compute_metrics_each_n_steps': 1, 'experiments_group': 'default', 'session_seq_length_max': 20, 'learning_rate_schedule': 'linear_with_warmup', 'validate_every': 10}\n",
+    "[INFO|trainer.py:1196] 2023-03-09 04:21:46,506 >> ***** Running training *****\n",
+    "[INFO|trainer.py:1197] 2023-03-09 04:21:46,506 >>   Num examples = 86528\n",
+    "[INFO|trainer.py:1198] 2023-03-09 04:21:46,506 >>   Num Epochs = 5\n",
+    "[INFO|trainer.py:1199] 2023-03-09 04:21:46,506 >>   Instantaneous batch size per device = 128\n",
+    "[INFO|trainer.py:1200] 2023-03-09 04:21:46,506 >>   Total train batch size (w. parallel, distributed & accumulation) = 128\n",
+    "[INFO|trainer.py:1201] 2023-03-09 04:21:46,506 >>   Gradient Accumulation steps = 1\n",
+    "[INFO|trainer.py:1202] 2023-03-09 04:21:46,506 >>   Total optimization steps = 3380\n",
+    "DLL 2023-03-09 04:21:45.788371 - PARAMETER data_path : /transformers4rec/examples/t4rec_paper_experiments/t4r_paper_repro/  features_schema_path : /workspace/examples/t4rec_paper_experiments/datasets_configs/ecom_rees46/rees46_schema.pbtxt  start_time_window_index : 1  final_time_window_index : 2  time_window_folder_pad_digits : 4  no_incremental_training : False  training_time_window_size : 0  use_side_information_features : False  input_features_aggregation : concat  model_type : xlnet  tf_out_activation : tanh  mlm : True  mlm_probability : 0.30000000000000004  plm : False  plm_probability : 0.25  plm_max_span_length : 5  plm_mask_input : False  plm_permute_all : False  rtd : False  rtd_sample_from_batch : False  rtd_use_batch_interaction : False  rtd_discriminator_loss_weight : 50  rtd_generator_loss_weight : 1  rtd_tied_generator : False  d_model : 192  n_layer : 3  n_head : 16  layer_norm_eps : 1e-12  initializer_range : 0.02  hidden_act : gelu  dropout : 0.0  summary_type : last  num_hidden_groups : 1  inner_group_num : 1  eval_on_last_item_seq_only : True  train_on_last_item_seq_only : False  mf_constrained_embeddings : True  item_embedding_dim : 448  numeric_features_project_to_embedding_dim : 0  numeric_features_soft_one_hot_encoding_num_embeddings : 0  stochastic_shared_embeddings_replacement_prob : 0.1  softmax_temperature : 1.0  label_smoothing : 0.0  embedding_dim_from_cardinality_multiplier : 2.0  item_id_embeddings_init_std : 0.11  other_embeddings_init_std : 0.02  layer_norm_featurewise : True  attn_type : bi  input_dropout : 0.1  loss_type : cross_entropy  similarity_type : concat_mlp  inp_merge : mlp  learning_rate_warmup_steps : 0  avg_session_length : None  output_dir : ./tmp/  overwrite_output_dir : True  do_train : True  do_eval : True  do_predict : False  prediction_loss_only : False  per_device_train_batch_size : 128  per_device_eval_batch_size : 128  per_gpu_train_batch_size : None  per_gpu_eval_batch_size : None  gradient_accumulation_steps : 1  eval_accumulation_steps : None  learning_rate : 0.0006667377132554976  weight_decay : 3.910060265627374e-05  adam_beta1 : 0.9  adam_beta2 : 0.999  adam_epsilon : 1e-08  max_grad_norm : 1.0  num_train_epochs : 5.0  max_steps : -1  lr_scheduler_type : linear  warmup_ratio : 0.0  warmup_steps : 0  log_level : -1  log_level_replica : -1  log_on_each_node : True  logging_dir : ./tmp/runs/Mar09_04-21-42_206f0524dae0  logging_first_step : False  logging_steps : 20  logging_nan_inf_filter : True  save_steps : 0  save_total_limit : None  save_on_each_node : False  no_cuda : False  seed : 100  fp16 : True  fp16_opt_level : O1  fp16_backend : auto  fp16_full_eval : False  local_rank : -1  xpu_backend : None  tpu_num_cores : None  tpu_metrics_debug : False  debug : []  dataloader_drop_last : True  eval_steps : None  dataloader_num_workers : 0  past_index : -1  run_name : None  disable_tqdm : False  remove_unused_columns : True  label_names : None  load_best_model_at_end : False  metric_for_best_model : None  greater_is_better : None  ignore_data_skip : False  sharded_ddp : []  deepspeed : None  label_smoothing_factor : 0.0  adafactor : False  group_by_length : False  length_column_name : length  report_to : []  ddp_find_unused_parameters : None  dataloader_pin_memory : True  skip_memory_metrics : True  use_legacy_prediction_loop : False  push_to_hub : False  resume_from_checkpoint : None  hub_model_id : None  hub_token : None  gradient_checkpointing : False  push_to_hub_model_id : None  push_to_hub_organization : None  push_to_hub_token : None  _n_gpu : 1  mp_parameters :   max_sequence_length : 20  shuffle_buffer_size : 0  data_loader_engine : merlin  eval_on_test_set : True  eval_steps_on_train_set : 20  predict_top_k : 0  learning_rate_num_cosine_cycles_by_epoch : 1.25  log_predictions : False  compute_metrics_each_n_steps : 1  experiments_group : default  session_seq_length_max : 20  learning_rate_schedule : linear_with_warmup  validate_every : 10 \n",
+    "\n",
+    "***** Launch training for day 1: *****\n",
+    "{'loss': 12.9123, 'learning_rate': 0.0006627925196859384, 'epoch': 0.03}\n",
+    "{'loss': 12.4709, 'learning_rate': 0.0006588473261163793, 'epoch': 0.06}\n",
+    "{'loss': 11.5016, 'learning_rate': 0.0006549021325468202, 'epoch': 0.09}\n",
+    "{'loss': 10.9435, 'learning_rate': 0.0006509569389772609, 'epoch': 0.12}\n",
+    "{'loss': 10.4956, 'learning_rate': 0.0006470117454077018, 'epoch': 0.15}\n",
+    "{'loss': 10.3446, 'learning_rate': 0.0006430665518381426, 'epoch': 0.18}\n",
+    "{'loss': 10.1993, 'learning_rate': 0.0006391213582685835, 'epoch': 0.21}\n",
+    "{'loss': 10.0643, 'learning_rate': 0.0006351761646990243, 'epoch': 0.24}\n",
+    "{'loss': 10.0089, 'learning_rate': 0.0006312309711294651, 'epoch': 0.27}\n",
+    "{'loss': 9.8635, 'learning_rate': 0.000627285777559906, 'epoch': 0.3}\n",
+    "{'loss': 9.9116, 'learning_rate': 0.0006233405839903469, 'epoch': 0.33}\n",
+    "{'loss': 9.8111, 'learning_rate': 0.0006193953904207876, 'epoch': 0.36}\n",
+    "{'loss': 9.9284, 'learning_rate': 0.0006154501968512286, 'epoch': 0.38}\n",
+    "{'loss': 9.8935, 'learning_rate': 0.0006115050032816694, 'epoch': 0.41}\n",
+    "{'loss': 9.8119, 'learning_rate': 0.0006075598097121102, 'epoch': 0.44}\n",
+    "{'loss': 9.7587, 'learning_rate': 0.000603614616142551, 'epoch': 0.47}\n",
+    "{'loss': 9.6956, 'learning_rate': 0.000599669422572992, 'epoch': 0.5}\n",
+    "{'loss': 9.7389, 'learning_rate': 0.0005957242290034327, 'epoch': 0.53}\n",
+    "{'loss': 9.6166, 'learning_rate': 0.0005917790354338736, 'epoch': 0.56}\n",
+    "{'loss': 9.5585, 'learning_rate': 0.0005878338418643144, 'epoch': 0.59}\n",
+    "{'loss': 9.3571, 'learning_rate': 0.0005838886482947553, 'epoch': 0.62}\n",
+    "{'loss': 9.5001, 'learning_rate': 0.0005799434547251961, 'epoch': 0.65}\n",
+    "{'loss': 9.532, 'learning_rate': 0.0005759982611556369, 'epoch': 0.68}\n",
+    "{'loss': 9.5373, 'learning_rate': 0.0005720530675860778, 'epoch': 0.71}\n",
+    "{'loss': 9.4494, 'learning_rate': 0.0005681078740165187, 'epoch': 0.74}\n",
+    "{'loss': 9.465, 'learning_rate': 0.0005641626804469595, 'epoch': 0.77}\n",
+    "{'loss': 9.5593, 'learning_rate': 0.0005602174868774003, 'epoch': 0.8}\n",
+    "{'loss': 9.3824, 'learning_rate': 0.0005562722933078411, 'epoch': 0.83}\n",
+    "{'loss': 9.3634, 'learning_rate': 0.000552327099738282, 'epoch': 0.86}\n",
+    "{'loss': 9.3981, 'learning_rate': 0.0005483819061687229, 'epoch': 0.89}\n",
+    "{'loss': 9.419, 'learning_rate': 0.0005444367125991636, 'epoch': 0.92}\n",
+    "{'loss': 9.3024, 'learning_rate': 0.0005404915190296046, 'epoch': 0.95}\n",
+    "{'loss': 9.375, 'learning_rate': 0.0005365463254600454, 'epoch': 0.98}\n",
+    "{'loss': 9.4292, 'learning_rate': 0.0005326011318904862, 'epoch': 1.01}\n",
+    "{'loss': 9.018, 'learning_rate': 0.0005286559383209271, 'epoch': 1.04}\n",
+    "{'loss': 9.2277, 'learning_rate': 0.000524710744751368, 'epoch': 1.07}\n",
+    "{'loss': 9.1066, 'learning_rate': 0.0005207655511818087, 'epoch': 1.09}\n",
+    "{'loss': 9.1126, 'learning_rate': 0.0005168203576122496, 'epoch': 1.12}\n",
+    "{'loss': 9.0821, 'learning_rate': 0.0005128751640426904, 'epoch': 1.15}\n",
+    "{'loss': 9.0789, 'learning_rate': 0.0005089299704731313, 'epoch': 1.18}\n",
+    "{'loss': 9.0374, 'learning_rate': 0.0005049847769035721, 'epoch': 1.21}\n",
+    "{'loss': 9.1187, 'learning_rate': 0.0005010395833340129, 'epoch': 1.24}\n",
+    "{'loss': 9.1388, 'learning_rate': 0.0004970943897644538, 'epoch': 1.27}\n",
+    "{'loss': 9.0866, 'learning_rate': 0.0004931491961948947, 'epoch': 1.3}\n",
+    "{'loss': 9.112, 'learning_rate': 0.0004892040026253355, 'epoch': 1.33}\n",
+    "{'loss': 9.0176, 'learning_rate': 0.0004852588090557764, 'epoch': 1.36}\n",
+    "{'loss': 9.0055, 'learning_rate': 0.0004813136154862172, 'epoch': 1.39}\n",
+    "{'loss': 9.0298, 'learning_rate': 0.000477368421916658, 'epoch': 1.42}\n",
+    "{'loss': 9.0415, 'learning_rate': 0.0004734232283470988, 'epoch': 1.45}\n",
+    "{'loss': 9.0309, 'learning_rate': 0.00046947803477753974, 'epoch': 1.48}\n",
+    "{'loss': 8.9989, 'learning_rate': 0.00046553284120798055, 'epoch': 1.51}\n",
+    "{'loss': 8.9873, 'learning_rate': 0.00046158764763842136, 'epoch': 1.54}\n",
+    "{'loss': 9.01, 'learning_rate': 0.0004576424540688622, 'epoch': 1.57}\n",
+    "{'loss': 8.904, 'learning_rate': 0.0004536972604993031, 'epoch': 1.6}\n",
+    "{'loss': 8.8774, 'learning_rate': 0.0004497520669297439, 'epoch': 1.63}\n",
+    "{'loss': 9.0187, 'learning_rate': 0.0004458068733601847, 'epoch': 1.66}\n",
+    "{'loss': 9.0117, 'learning_rate': 0.00044186167979062564, 'epoch': 1.69}\n",
+    "{'loss': 9.0067, 'learning_rate': 0.00043791648622106645, 'epoch': 1.72}\n",
+    "{'loss': 8.9619, 'learning_rate': 0.00043397129265150726, 'epoch': 1.75}\n",
+    "{'loss': 9.0377, 'learning_rate': 0.0004300260990819481, 'epoch': 1.78}\n",
+    "{'loss': 8.8861, 'learning_rate': 0.000426080905512389, 'epoch': 1.8}\n",
+    "{'loss': 8.9635, 'learning_rate': 0.0004221357119428298, 'epoch': 1.83}\n",
+    "{'loss': 8.9096, 'learning_rate': 0.00041819051837327067, 'epoch': 1.86}\n",
+    "{'loss': 8.981, 'learning_rate': 0.0004142453248037115, 'epoch': 1.89}\n",
+    "{'loss': 8.925, 'learning_rate': 0.00041030013123415234, 'epoch': 1.92}\n",
+    "{'loss': 8.877, 'learning_rate': 0.0004063549376645932, 'epoch': 1.95}\n",
+    "{'loss': 8.9213, 'learning_rate': 0.000402409744095034, 'epoch': 1.98}\n",
+    "{'loss': 8.9171, 'learning_rate': 0.00039846455052547494, 'epoch': 2.01}\n",
+    "{'loss': 8.7143, 'learning_rate': 0.00039451935695591575, 'epoch': 2.04}\n",
+    "{'loss': 8.7358, 'learning_rate': 0.00039057416338635656, 'epoch': 2.07}\n",
+    "{'loss': 8.7629, 'learning_rate': 0.00038662896981679737, 'epoch': 2.1}\n",
+    "{'loss': 8.7493, 'learning_rate': 0.0003826837762472383, 'epoch': 2.13}\n",
+    "{'loss': 8.8725, 'learning_rate': 0.0003787385826776791, 'epoch': 2.16}\n",
+    "{'loss': 8.5959, 'learning_rate': 0.0003747933891081199, 'epoch': 2.19}\n",
+    "{'loss': 8.7501, 'learning_rate': 0.0003708481955385607, 'epoch': 2.22}\n",
+    "{'loss': 8.758, 'learning_rate': 0.00036690300196900164, 'epoch': 2.25}\n",
+    "{'loss': 8.908, 'learning_rate': 0.00036295780839944245, 'epoch': 2.28}\n",
+    "{'loss': 8.7367, 'learning_rate': 0.00035901261482988326, 'epoch': 2.31}\n",
+    "{'loss': 8.7486, 'learning_rate': 0.0003550674212603242, 'epoch': 2.34}\n",
+    "{'loss': 8.7116, 'learning_rate': 0.000351122227690765, 'epoch': 2.37}\n",
+    "{'loss': 8.6919, 'learning_rate': 0.0003471770341212058, 'epoch': 2.4}\n",
+    "{'loss': 8.7932, 'learning_rate': 0.00034323184055164667, 'epoch': 2.43}\n",
+    "{'loss': 8.7448, 'learning_rate': 0.00033928664698208754, 'epoch': 2.46}\n",
+    "{'loss': 8.8504, 'learning_rate': 0.00033534145341252835, 'epoch': 2.49}\n",
+    "{'loss': 8.6369, 'learning_rate': 0.0003313962598429692, 'epoch': 2.51}\n",
+    "{'loss': 8.7453, 'learning_rate': 0.0003274510662734101, 'epoch': 2.54}\n",
+    "{'loss': 8.7315, 'learning_rate': 0.0003235058727038509, 'epoch': 2.57}\n",
+    "{'loss': 8.6411, 'learning_rate': 0.00031956067913429176, 'epoch': 2.6}\n",
+    "{'loss': 8.5762, 'learning_rate': 0.00031561548556473257, 'epoch': 2.63}\n",
+    "{'loss': 8.642, 'learning_rate': 0.00031167029199517343, 'epoch': 2.66}\n",
+    "{'loss': 8.7194, 'learning_rate': 0.0003077250984256143, 'epoch': 2.69}\n",
+    "{'loss': 8.627, 'learning_rate': 0.0003037799048560551, 'epoch': 2.72}\n",
+    "{'loss': 8.7215, 'learning_rate': 0.000299834711286496, 'epoch': 2.75}\n",
+    "{'loss': 8.707, 'learning_rate': 0.0002958895177169368, 'epoch': 2.78}\n",
+    "{'loss': 8.5898, 'learning_rate': 0.00029194432414737765, 'epoch': 2.81}\n",
+    "{'loss': 8.7476, 'learning_rate': 0.00028799913057781846, 'epoch': 2.84}\n",
+    "{'loss': 8.6637, 'learning_rate': 0.0002840539370082593, 'epoch': 2.87}\n",
+    "{'loss': 8.5057, 'learning_rate': 0.00028010874343870014, 'epoch': 2.9}\n",
+    "{'loss': 8.6891, 'learning_rate': 0.000276163549869141, 'epoch': 2.93}\n",
+    "{'loss': 8.696, 'learning_rate': 0.0002722183562995818, 'epoch': 2.96}\n",
+    "{'loss': 8.5416, 'learning_rate': 0.0002682731627300227, 'epoch': 2.99}\n",
+    "{'loss': 8.592, 'learning_rate': 0.00026432796916046354, 'epoch': 3.02}\n",
+    "{'loss': 8.5271, 'learning_rate': 0.00026038277559090435, 'epoch': 3.05}\n",
+    "{'loss': 8.4965, 'learning_rate': 0.0002564375820213452, 'epoch': 3.08}\n",
+    "{'loss': 8.5365, 'learning_rate': 0.00025249238845178603, 'epoch': 3.11}\n",
+    "{'loss': 8.5022, 'learning_rate': 0.0002485471948822269, 'epoch': 3.14}\n",
+    "{'loss': 8.4691, 'learning_rate': 0.00024460200131266776, 'epoch': 3.17}\n",
+    "{'loss': 8.5848, 'learning_rate': 0.0002406568077431086, 'epoch': 3.2}\n",
+    "{'loss': 8.5176, 'learning_rate': 0.0002367116141735494, 'epoch': 3.22}\n",
+    "{'loss': 8.6456, 'learning_rate': 0.00023276642060399028, 'epoch': 3.25}\n",
+    "{'loss': 8.6207, 'learning_rate': 0.0002288212270344311, 'epoch': 3.28}\n",
+    "{'loss': 8.5979, 'learning_rate': 0.00022487603346487195, 'epoch': 3.31}\n",
+    "{'loss': 8.4435, 'learning_rate': 0.00022093083989531282, 'epoch': 3.34}\n",
+    "{'loss': 8.4809, 'learning_rate': 0.00021698564632575363, 'epoch': 3.37}\n",
+    "{'loss': 8.58, 'learning_rate': 0.0002130404527561945, 'epoch': 3.4}\n",
+    "{'loss': 8.4629, 'learning_rate': 0.00020909525918663533, 'epoch': 3.43}\n",
+    "{'loss': 8.4935, 'learning_rate': 0.00020515006561707617, 'epoch': 3.46}\n",
+    "{'loss': 8.4126, 'learning_rate': 0.000201204872047517, 'epoch': 3.49}\n",
+    "{'loss': 8.4416, 'learning_rate': 0.00019725967847795787, 'epoch': 3.52}\n",
+    "{'loss': 8.4937, 'learning_rate': 0.00019331448490839869, 'epoch': 3.55}\n",
+    "{'loss': 8.5058, 'learning_rate': 0.00018936929133883955, 'epoch': 3.58}\n",
+    "{'loss': 8.5741, 'learning_rate': 0.00018542409776928036, 'epoch': 3.61}\n",
+    "{'loss': 8.4768, 'learning_rate': 0.00018147890419972123, 'epoch': 3.64}\n",
+    "{'loss': 8.4054, 'learning_rate': 0.0001775337106301621, 'epoch': 3.67}\n",
+    "{'loss': 8.5333, 'learning_rate': 0.0001735885170606029, 'epoch': 3.7}\n",
+    "{'loss': 8.3779, 'learning_rate': 0.00016964332349104377, 'epoch': 3.73}\n",
+    "{'loss': 8.3714, 'learning_rate': 0.0001656981299214846, 'epoch': 3.76}\n",
+    "{'loss': 8.4416, 'learning_rate': 0.00016175293635192544, 'epoch': 3.79}\n",
+    "{'loss': 8.502, 'learning_rate': 0.00015780774278236628, 'epoch': 3.82}\n",
+    "{'loss': 8.4547, 'learning_rate': 0.00015386254921280715, 'epoch': 3.85}\n",
+    "{'loss': 8.4987, 'learning_rate': 0.000149917355643248, 'epoch': 3.88}\n",
+    "{'loss': 8.4498, 'learning_rate': 0.00014597216207368882, 'epoch': 3.91}\n",
+    "{'loss': 8.4753, 'learning_rate': 0.00014202696850412966, 'epoch': 3.93}\n",
+    "{'loss': 8.4321, 'learning_rate': 0.0001380817749345705, 'epoch': 3.96}\n",
+    "{'loss': 8.4252, 'learning_rate': 0.00013413658136501134, 'epoch': 3.99}\n",
+    "{'loss': 8.3991, 'learning_rate': 0.00013019138779545218, 'epoch': 4.02}\n",
+    "{'loss': 8.3454, 'learning_rate': 0.00012624619422589302, 'epoch': 4.05}\n",
+    "{'loss': 8.3294, 'learning_rate': 0.00012230100065633388, 'epoch': 4.08}\n",
+    "{'loss': 8.3815, 'learning_rate': 0.0001183558070867747, 'epoch': 4.11}\n",
+    "{'loss': 8.331, 'learning_rate': 0.00011441061351721554, 'epoch': 4.14}\n",
+    "{'loss': 8.3407, 'learning_rate': 0.00011046541994765641, 'epoch': 4.17}\n",
+    "{'loss': 8.4289, 'learning_rate': 0.00010652022637809725, 'epoch': 4.2}\n",
+    "{'loss': 8.405, 'learning_rate': 0.00010257503280853809, 'epoch': 4.23}\n",
+    "{'loss': 8.4328, 'learning_rate': 9.862983923897894e-05, 'epoch': 4.26}\n",
+    "{'loss': 8.4265, 'learning_rate': 9.468464566941978e-05, 'epoch': 4.29}\n",
+    "{'loss': 8.2568, 'learning_rate': 9.073945209986061e-05, 'epoch': 4.32}\n",
+    "{'loss': 8.4031, 'learning_rate': 8.679425853030145e-05, 'epoch': 4.35}\n",
+    "{'loss': 8.3285, 'learning_rate': 8.28490649607423e-05, 'epoch': 4.38}\n",
+    "{'loss': 8.3277, 'learning_rate': 7.890387139118314e-05, 'epoch': 4.41}\n",
+    "{'loss': 8.2869, 'learning_rate': 7.4958677821624e-05, 'epoch': 4.44}\n",
+    "{'loss': 8.4278, 'learning_rate': 7.101348425206483e-05, 'epoch': 4.47}\n",
+    "{'loss': 8.3403, 'learning_rate': 6.706829068250567e-05, 'epoch': 4.5}\n",
+    "{'loss': 8.4259, 'learning_rate': 6.312309711294651e-05, 'epoch': 4.53}\n",
+    "{'loss': 8.3813, 'learning_rate': 5.917790354338735e-05, 'epoch': 4.56}\n",
+    "{'loss': 8.2961, 'learning_rate': 5.5232709973828204e-05, 'epoch': 4.59}\n",
+    "{'loss': 8.3352, 'learning_rate': 5.128751640426904e-05, 'epoch': 4.62}\n",
+    "{'loss': 8.3326, 'learning_rate': 4.734232283470989e-05, 'epoch': 4.64}\n",
+    "{'loss': 8.3014, 'learning_rate': 4.3397129265150726e-05, 'epoch': 4.67}\n",
+    "{'loss': 8.358, 'learning_rate': 3.945193569559157e-05, 'epoch': 4.7}\n",
+    "{'loss': 8.4064, 'learning_rate': 3.5506742126032416e-05, 'epoch': 4.73}\n",
+    "{'loss': 8.2876, 'learning_rate': 3.1561548556473254e-05, 'epoch': 4.76}\n",
+    "{'loss': 8.3134, 'learning_rate': 2.7616354986914102e-05, 'epoch': 4.79}\n",
+    "{'loss': 8.1968, 'learning_rate': 2.3671161417354944e-05, 'epoch': 4.82}\n",
+    "{'loss': 8.3942, 'learning_rate': 1.9725967847795785e-05, 'epoch': 4.85}\n",
+    "{'loss': 8.3894, 'learning_rate': 1.5780774278236627e-05, 'epoch': 4.88}\n",
+    "{'loss': 8.3288, 'learning_rate': 1.1835580708677472e-05, 'epoch': 4.91}\n",
+    "{'loss': 8.3074, 'learning_rate': 7.890387139118313e-06, 'epoch': 4.94}\n",
+    "{'loss': 8.3924, 'learning_rate': 3.945193569559157e-06, 'epoch': 4.97}\n",
+    "{'loss': 8.3114, 'learning_rate': 0.0, 'epoch': 5.0}\n",
+    "{'train_runtime': 268.0183, 'train_samples_per_second': 0.019, 'train_steps_per_second': 12.611, 'train_loss': 8.906013858953171, 'epoch': 5.0}\n",
+    "\n",
+    "***** Evaluation results for day 2 (train set):*****\n",
+    "\n",
+    "{'train_/next-item/ndcg_at_10': 0.08422642946243286, 'train_/next-item/ndcg_at_20': 0.10001382976770401, 'train_/next-item/recall_at_10': 0.15468750894069672, 'train_/next-item/recall_at_20': 0.21757812798023224, 'train_/loss': 7.968885898590088, 'train_runtime': 0.6484, 'train_samples_per_second': 3948.003, 'train_steps_per_second': 30.844}\n",
+    "\n",
+    "***** Evaluation results for day 2 (eval set):*****\n",
+    "\n",
+    "{'eval_/next-item/ndcg_at_10': 0.08305524289608002, 'eval_/next-item/ndcg_at_20': 0.09936655312776566, 'eval_/next-item/recall_at_10': 0.15436746180057526, 'eval_/next-item/recall_at_20': 0.2190323770046234, 'eval_/loss': 8.334789276123047, 'eval_runtime': 2.2443, 'eval_samples_per_second': 4733.773, 'eval_steps_per_second': 36.983}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "54d6ef61",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * [new branch]        ci/horovod             -> origin/ci/horovod\n",
+      " * [new branch]        codespell_fix          -> origin/codespell_fix\n",
+      "   16fb4149..b1c10317  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
+      " * [new branch]        fea-sok-load-dump      -> origin/fea-sok-load-dump\n",
+      "   95462360..a69adf75  gh-pages               -> origin/gh-pages\n",
+      " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      "   835ad186..e7fe759c  main                   -> origin/main\n",
+      " * [new branch]        mtl_example            -> origin/mtl_example\n",
+      "   cb431a8a..b90e9a1b  release-22.12          -> origin/release-22.12\n",
+      " * [new branch]        release-23.02          -> origin/release-23.02\n",
+      " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]        tf/dataloader_changes  -> origin/tf/dataloader_changes\n",
+      " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " + 169f3df5...06eecddd tf/output-block        -> origin/tf/output-block  (forced update)\n",
+      " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]        tf/quick_start_ranking -> origin/tf/quick_start_ranking\n",
+      " * [new branch]        tf/transformer-api     -> origin/tf/transformer-api\n",
+      " + 0a65d603...9f53e8ff update_07              -> origin/update_07  (forced update)\n",
+      " * [new tag]           v23.02.00              -> v23.02.00\n",
+      "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
+      "HEAD is now at a92bdc24 adjust sample_weights to targets shape\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.10.0)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.0.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.56.4)\n",
+      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.19.6)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (22.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.5.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.0.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.12.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.12.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.2.0)\n",
+      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.22.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.1)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.1.3)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.1.2)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.4.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.7.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.26.13)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.4)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.9.4)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.57.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.14.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.1)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.4)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+6.ga92bdc24-py3-none-any.whl size=374609 sha256=2aa872a5f1575151273bcc94d5c4b0205a1f22af84ab44d48d9f75d74f9daa93\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-l8ge0dm1/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 0.11.0\n",
+      "    Uninstalling merlin-models-0.11.0:\n",
+      "      Successfully uninstalled merlin-models-0.11.0\n",
+      "Successfully installed merlin-models-23.2.0+6.ga92bdc24\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was 2fc6889 add schema parameter to the `repartition` method (#192)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   cd96ca5f..aad0c874 main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating cd96ca5f..aad0c874\n",
+      "Fast-forward\n",
+      " .github/release-drafter.yml                        |  44 +--\n",
+      " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
+      " .../ISSUE_TEMPLATE/documentation-request.md        |  12 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
+      " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
+      " .github/workflows/cpu-ci.yml                       | 145 +++-------\n",
+      " .github/workflows/cpu-models.yml                   |  52 ++--\n",
+      " .github/workflows/cpu-nvtabular.yml                |  52 ++--\n",
+      " .github/workflows/cpu-packages.yml                 | 126 +++++++++\n",
+      " .github/workflows/cpu-systems.yml                  |  52 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 +-\n",
+      " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .pre-commit-config.yaml                            |  55 ++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |  28 +-\n",
+      " README.md                                          |  68 ++---\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " docs/README.md                                     |  49 ++--\n",
+      " merlin/core/compat.py                              |  59 +++-\n",
+      " merlin/core/dispatch.py                            |  51 +++-\n",
+      " merlin/dag/__init__.py                             |   1 +\n",
+      " merlin/dag/base_operator.py                        |  30 +-\n",
+      " merlin/dag/dictarray.py                            |   3 +-\n",
+      " merlin/dag/executors.py                            | 107 ++++---\n",
+      " merlin/dag/graph.py                                |  20 ++\n",
+      " merlin/dag/node.py                                 |   2 +-\n",
+      " merlin/dag/utils.py                                |  69 +++++\n",
+      " merlin/dispatch/lazy.py                            | 152 ++++++++++\n",
+      " merlin/dtypes/__init__.py                          |  60 ++++\n",
+      " merlin/dtypes/aliases.py                           |  52 ++++\n",
+      " merlin/dtypes/base.py                              | 178 ++++++++++++\n",
+      " merlin/dtypes/mapping.py                           | 173 ++++++++++++\n",
+      " merlin/dtypes/mappings/__init__.py                 |  18 ++\n",
+      " merlin/dtypes/mappings/cudf.py                     |  57 ++++\n",
+      " merlin/dtypes/mappings/numpy.py                    |  52 ++++\n",
+      " merlin/dtypes/mappings/pandas.py                   |  38 +++\n",
+      " merlin/dtypes/mappings/python.py                   |  31 ++\n",
+      " merlin/dtypes/mappings/tf.py                       |  52 ++++\n",
+      " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
+      " merlin/dtypes/mappings/triton.py                   |  53 ++++\n",
+      " merlin/dtypes/registry.py                          | 142 ++++++++++\n",
+      " merlin/dtypes/shape.py                             | 183 ++++++++++++\n",
+      " merlin/io/avro.py                                  |   4 -\n",
+      " merlin/io/csv.py                                   |   1 -\n",
+      " merlin/io/dask.py                                  |   6 +-\n",
+      " merlin/io/dataset.py                               |  19 +-\n",
+      " merlin/io/fsspec_utils.py                          |   8 +-\n",
+      " merlin/io/parquet.py                               |   8 -\n",
+      " merlin/io/writer.py                                |   1 -\n",
+      " merlin/schema/io/tensorflow_metadata.py            |  86 +++---\n",
+      " merlin/schema/schema.py                            | 298 +++++++++++---------\n",
+      " merlin/table/__init__.py                           |  24 ++\n",
+      " merlin/table/conversions.py                        | 135 +++++++++\n",
+      " merlin/table/cupy_column.py                        |  92 ++++++\n",
+      " merlin/table/numpy_column.py                       | 100 +++++++\n",
+      " merlin/table/tensor_column.py                      | 217 ++++++++++++++\n",
+      " merlin/table/tensor_table.py                       | 222 +++++++++++++++\n",
+      " merlin/table/tensorflow_column.py                  | 159 +++++++++++\n",
+      " merlin/table/torch_column.py                       | 124 ++++++++\n",
+      " requirements.txt                                   |   5 +-\n",
+      " tests/conftest.py                                  |  16 +-\n",
+      " tests/unit/core/test_dispatch.py                   |  19 ++\n",
+      " tests/unit/core/test_version.py                    |   4 +\n",
+      " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
+      " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
+      " tests/unit/dtypes/test_module.py                   |  48 ++++\n",
+      " tests/unit/dtypes/test_shape.py                    | 222 +++++++++++++++\n",
+      " tests/unit/io/test_io.py                           |  27 +-\n",
+      " tests/unit/schema/test_column_schemas.py           | 142 ++++++----\n",
+      " tests/unit/schema/test_schema.py                   |   7 +-\n",
+      " tests/unit/schema/test_schema_io.py                |  27 +-\n",
+      " tests/unit/table/test_convert_column.py            |  75 +++++\n",
+      " tests/unit/table/test_tensor_column.py             | 186 ++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 311 +++++++++++++++++++++\n",
+      " tests/unit/utils/test_utils.py                     |   3 -\n",
+      " tox.ini                                            |   4 +\n",
+      " 80 files changed, 4413 insertions(+), 672 deletions(-)\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/dag/utils.py\n",
+      " create mode 100644 merlin/dispatch/lazy.py\n",
+      " create mode 100644 merlin/dtypes/__init__.py\n",
+      " create mode 100644 merlin/dtypes/aliases.py\n",
+      " create mode 100644 merlin/dtypes/base.py\n",
+      " create mode 100644 merlin/dtypes/mapping.py\n",
+      " create mode 100644 merlin/dtypes/mappings/__init__.py\n",
+      " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
+      " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
+      " create mode 100644 merlin/dtypes/mappings/python.py\n",
+      " create mode 100644 merlin/dtypes/mappings/tf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/torch.py\n",
+      " create mode 100644 merlin/dtypes/mappings/triton.py\n",
+      " create mode 100644 merlin/dtypes/registry.py\n",
+      " create mode 100644 merlin/dtypes/shape.py\n",
+      " create mode 100644 merlin/table/__init__.py\n",
+      " create mode 100644 merlin/table/conversions.py\n",
+      " create mode 100644 merlin/table/cupy_column.py\n",
+      " create mode 100644 merlin/table/numpy_column.py\n",
+      " create mode 100644 merlin/table/tensor_column.py\n",
+      " create mode 100644 merlin/table/tensor_table.py\n",
+      " create mode 100644 merlin/table/tensorflow_column.py\n",
+      " create mode 100644 merlin/table/torch_column.py\n",
+      " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
+      " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
+      " create mode 100644 tests/unit/dtypes/test_module.py\n",
+      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
+      " create mode 100644 tests/unit/table/test_convert_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_table.py\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.5.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (22.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (11.4.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (3.19.6)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.3.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (8.0.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.2.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.12.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (4.64.1)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2.8.2)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.22.4)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (45.2.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (0.12.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (0.4.3)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.7.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.1)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.26.13)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.4)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (5.9.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.4.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (8.1.3)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (3.1.2)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (3.11.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.4)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.1.1)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+56.gaad0c874-py3-none-any.whl size=152601 sha256=e6e379a2bc1756cddf2a2ed74086c0071fd68f95bba9432dae3f8096116fbb8a\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-nvai80xu/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n",
+      "Installing collected packages: merlin-core\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 0.10.0\n",
+      "    Uninstalling merlin-core-0.10.0:\n",
+      "      Successfully uninstalled merlin-core-0.10.0\n",
+      "Successfully installed merlin-core-0.9.0+56.gaad0c874\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was 020b24b7 Fix output error occurring due to  check if it is a dict or not (#1742)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/NVTabular\n",
+      " * branch              main       -> FETCH_HEAD\n",
+      "   c5bc4098..9b186ee9  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating c5bc4098..9b186ee9\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug_report.md               |  11 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/feature_request.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/operator_request.md         |  14 +-\n",
+      " .github/ISSUE_TEMPLATE/research_question.md        |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   4 +-\n",
+      " .github/release-drafter.yml                        |  44 ++--\n",
+      " .github/workflows/blossom-ci.yml                   | 230 ++++++++++-----------\n",
+      " .github/workflows/conda-env-create.yml             |  30 +--\n",
+      " .github/workflows/cpu-ci.yml                       | 138 -------------\n",
+      " .github/workflows/cpu-packages.yml                 | 132 ++++++++++++\n",
+      " .github/workflows/cpu-tests.yml                    |  69 +++++++\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   6 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 ---\n",
+      " .github/workflows/gpu-tests.yml                    |  30 +++\n",
+      " .gitlab-ci.yml                                     |  23 +--\n",
+      " .pre-commit-config.yaml                            |  47 +++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CHANGELOG.md                                       | 187 ++++++++---------\n",
+      " CONTRIBUTING.md                                    |  30 +--\n",
+      " README.md                                          |  48 ++---\n",
+      " bench/datasets/tools/train_tensorflow.py           |   1 -\n",
+      " bench/examples/MultiGPUBench.md                    |  67 +++---\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " conda/environments/nvtabular_aws_sagemaker.yml     |   2 +-\n",
+      " docs/README.md                                     |  18 +-\n",
+      " docs/source/core_features.md                       |  48 ++---\n",
+      " docs/source/resources/architecture.md              |  17 +-\n",
+      " docs/source/resources/cloud_integration.md         |  24 ++-\n",
+      " docs/source/resources/links.md                     |  40 ++--\n",
+      " docs/source/toc.yaml                               |  12 +-\n",
+      " examples/01-Getting-started.ipynb                  |   5 +-\n",
+      " examples/02-Advanced-NVTabular-workflow.ipynb      |   5 +-\n",
+      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |   5 +-\n",
+      " examples/README.md                                 |   1 +\n",
+      " nvtabular/inference/__init__.py                    |   4 +-\n",
+      " nvtabular/inference/triton/ensemble.py             |  86 ++------\n",
+      " nvtabular/inference/triton/model/model_pt.py       |   1 -\n",
+      " nvtabular/inference/workflow/hugectr.py            |   2 +-\n",
+      " nvtabular/loader/backend.py                        |  31 +--\n",
+      " nvtabular/loader/tensorflow.py                     |   1 +\n",
+      " nvtabular/ops/categorify.py                        |   2 -\n",
+      " nvtabular/ops/groupby.py                           |  35 ++--\n",
+      " nvtabular/ops/join_external.py                     |   1 -\n",
+      " nvtabular/ops/join_groupby.py                      |  18 +-\n",
+      " nvtabular/ops/list_slice.py                        |  22 +-\n",
+      " nvtabular/ops/moments.py                           |   2 -\n",
+      " nvtabular/ops/reduce_dtype_size.py                 |   9 +-\n",
+      " nvtabular/ops/value_counts.py                      |  14 +-\n",
+      " nvtabular/workflow/workflow.py                     | 113 +++++++++-\n",
+      " requirements-test.txt                              |   2 -\n",
+      " requirements/test.txt                              |   3 +-\n",
+      " setup.py                                           |   5 +\n",
+      " tests/conftest.py                                  |   1 -\n",
+      " .../test_02-Advanced-NVTabular-workflow.py         |  12 +-\n",
+      " tests/unit/ops/test_column_similarity.py           |   1 -\n",
+      " tests/unit/ops/test_groupyby.py                    |   2 +-\n",
+      " tests/unit/ops/test_lambda.py                      |  28 ++-\n",
+      " tests/unit/ops/test_ops_schema.py                  |  25 ++-\n",
+      " tests/unit/ops/test_value_count.py                 |   2 +\n",
+      " tests/unit/workflow/test_workflow.py               |  75 ++++++-\n",
+      " tox.ini                                            |   9 +-\n",
+      " 64 files changed, 1056 insertions(+), 786 deletions(-)\n",
+      " delete mode 100644 .github/workflows/cpu-ci.yml\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .github/workflows/cpu-tests.yml\n",
+      " delete mode 100644 .github/workflows/gpu-ci.yml\n",
+      " create mode 100644 .github/workflows/gpu-tests.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " delete mode 100644 requirements-test.txt\n",
+      "Processing /nvtabular\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+56.gaad0c874)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n",
+      "Building wheels for collected packages: nvtabular\n",
+      "  Building wheel for nvtabular (PEP 517): started\n",
+      "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=33bd39a7ce6bd4d1b7e81ef0ecd16abcffc75944d1a9a8510902f42658baf22e\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ws2h8usp/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "Successfully built nvtabular\n",
+      "Installing collected packages: nvtabular\n",
+      "  Attempting uninstall: nvtabular\n",
+      "    Found existing installation: nvtabular 1.8.0\n",
+      "    Uninstalling nvtabular-1.8.0:\n",
+      "      Successfully uninstalled nvtabular-1.8.0\n",
+      "Successfully installed nvtabular-1.6.0+42.g9b186ee9\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was feaf748 adding async tf strategy for gpu memory (#264)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   20bb231..329cba4  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating 20bb231..329cba4\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug-report.md               |  17 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |  12 +-\n",
+      " .github/ISSUE_TEMPLATE/feature-request.md          |   5 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   5 +-\n",
+      " .github/release-drafter.yml                        |  44 +-\n",
+      " .github/workflows/cpu-ci.yml                       | 112 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  32 +-\n",
+      " .github/workflows/lint.yaml                        |  12 +-\n",
+      " .github/workflows/release-drafter.yml              |   2 +-\n",
+      " .pre-commit-config.yaml                            |  71 +-\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |   2 +-\n",
+      " README.md                                          |   2 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " docs/README.md                                     |  53 +-\n",
+      " ...ing-An-Implicit-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...ving-An-XGboost-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...erving-Ranking-Models-With-Merlin-Systems.ipynb |   5 +-\n",
+      " merlin/systems/dag/dictarray.py                    |   4 +-\n",
+      " merlin/systems/dag/op_runner.py                    |   1 -\n",
+      " merlin/systems/dag/ops/__init__.py                 |  11 +-\n",
+      " merlin/systems/dag/ops/faiss.py                    |   4 +-\n",
+      " merlin/systems/dag/ops/feast.py                    |  80 +--\n",
+      " merlin/systems/dag/ops/fil.py                      |   4 +-\n",
+      " merlin/systems/dag/ops/implicit.py                 |  72 +-\n",
+      " merlin/systems/dag/ops/operator.py                 | 189 +-----\n",
+      " merlin/systems/dag/ops/pytorch.py                  |   4 +-\n",
+      " merlin/systems/dag/ops/session_filter.py           |   4 +-\n",
+      " merlin/systems/dag/ops/softmax_sampling.py         |  17 +-\n",
+      " merlin/systems/dag/ops/unroll_features.py          |   4 +-\n",
+      " merlin/systems/dag/ops/workflow.py                 |   4 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/implicit.py | 185 ++++++\n",
+      " merlin/systems/dag/runtimes/triton/ops/operator.py | 169 ++++-\n",
+      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |   2 +-\n",
+      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  12 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 141 +++-\n",
+      " merlin/systems/dag/runtimes/triton/runtime.py      |  14 +-\n",
+      " merlin/systems/triton/__init__.py                  |  33 +-\n",
+      " merlin/systems/triton/export.py                    | 724 +--------------------\n",
+      " merlin/systems/triton/models/executor_model.py     |  34 +-\n",
+      " merlin/systems/triton/models/oprunner_model.py     |  32 +-\n",
+      " merlin/systems/triton/models/pytorch_model.py      | 127 ++--\n",
+      " merlin/systems/triton/models/workflow_model.py     |  50 +-\n",
+      " merlin/systems/triton/utils.py                     |  35 +-\n",
+      " tests/conftest.py                                  |   4 +-\n",
+      " ...erving_an_implicit_model_with_merlin_systems.py |   4 +-\n",
+      " ...serving_an_xgboost_model_with_merlin_systems.py |   4 +-\n",
+      " tests/unit/systems/dag/ops/test_ops.py             |  20 +-\n",
+      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |   2 +-\n",
+      " .../triton/ops/fil/test_lightgbm_triton.py         |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_sklearn_triton.py |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   4 +-\n",
+      " .../dag/runtimes/triton/ops/torch/test_op.py       |   4 +-\n",
+      " .../runtimes/triton/ops/workflow/test_ensemble.py  |  67 +-\n",
+      " .../systems/dag/runtimes/triton/test_triton.py     |   4 +-\n",
+      " tests/unit/systems/dag/test_dict_array.py          |   4 +-\n",
+      " tests/unit/systems/dag/test_executors.py           |   4 +-\n",
+      " tests/unit/systems/ops/faiss/test_executor.py      |   4 +-\n",
+      " tests/unit/systems/ops/feast/test_op.py            |  46 +-\n",
+      " tests/unit/systems/ops/fil/test_ensemble.py        |   4 +-\n",
+      " tests/unit/systems/ops/implicit/test_executor.py   |   4 +-\n",
+      " tests/unit/systems/ops/implicit/test_op.py         |  11 +-\n",
+      " tests/unit/systems/ops/tf/test_ensemble.py         |   4 +-\n",
+      " tests/unit/systems/utils/ops.py                    |   7 +-\n",
+      " tests/unit/test_export.py                          |  77 ---\n",
+      " tox.ini                                            |   1 -\n",
+      " 70 files changed, 1072 insertions(+), 1580 deletions(-)\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/systems/dag/runtimes/triton/ops/implicit.py\n",
+      " delete mode 100644 tests/unit/test_export.py\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+56.gaad0c874)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (11.4.1)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=50ebea88cab88355f4a562867fa250a1754ad79ba82ab44a242f1451ff918f50\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ig69oyt6/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 0.9.0\n",
+      "    Uninstalling merlin-systems-0.9.0:\n",
+      "      Successfully uninstalled merlin-systems-0.9.0\n",
+      "Successfully installed merlin-systems-0.7.0+61.g329cba4\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was fd5d3fc Use tf.function for list column operations (#89)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   5b3fe46..dbf8816  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating 5b3fe46..dbf8816\n",
+      "Fast-forward\n",
+      " .github/workflows/cpu-ci.yml                       |  81 -----\n",
+      " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .pre-commit-config.yaml                            |  14 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |  44 +++\n",
+      " docs/README.md                                     |  28 +-\n",
+      " examples/01a-Getting-started-Tensorflow.ipynb      |   5 +-\n",
+      " examples/01b-Getting-started-Pytorch.ipynb         |   9 +-\n",
+      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 +++++++++++++++++++++\n",
+      " merlin/dataloader/jax.py                           |   3 +\n",
+      " merlin/dataloader/loader_base.py                   | 221 ++++--------\n",
+      " .../ops/embeddings/torch_embedding_op.py           |   4 +-\n",
+      " merlin/dataloader/tensorflow.py                    |   9 +-\n",
+      " merlin/dataloader/torch.py                         |  49 ++-\n",
+      " merlin/dataloader/utils/tf/tf_trainer.py           |   2 +-\n",
+      " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
+      " tests/unit/dataloader/test_tf_dataloader.py        |  20 +-\n",
+      " tests/unit/dataloader/test_torch_dataloader.py     |  38 +++\n",
+      " tox.ini                                            |   1 +\n",
+      " 19 files changed, 781 insertions(+), 278 deletions(-)\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
+      " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
+      " create mode 100644 tests/examples/test_multi_GPU_with_horovod_and_tensorflow.py\n",
+      "Processing /dataloader\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+41.gdbf8816) (0.9.0+56.gaad0c874)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.12.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.19.6)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.5.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (11.4.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.39.1)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.57.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.4.3)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.1.3)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.1)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.1.2)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.11.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.4)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.1)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=90d5b8cd5d1b74f242a2d155c11b3a4c34b029ef43f752c03f8f8b0a357be6b3\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-6c80kdug/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n",
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 0.0.4\n",
+      "    Uninstalling merlin-dataloader-0.0.4:\n",
+      "      Successfully uninstalled merlin-dataloader-0.0.4\n",
+      "Successfully installed merlin-dataloader-0.0.2+41.gdbf8816\n",
+      "Collecting matplotlib\n",
+      "  Downloading matplotlib-3.7.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (9.2 MB)\n",
+      "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
+      "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
+      "Collecting fonttools>=4.22.0\n",
+      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
+      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
+      "Collecting cycler>=0.10\n",
+      "  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)\n",
+      "Collecting contourpy>=1.0.1\n",
+      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
+      "Collecting pillow>=6.2.0\n",
+      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
+      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
+      "Collecting kiwisolver>=1.0.1\n",
+      "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
+      "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
+      "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n",
+      "Installing collected packages: fonttools, cycler, contourpy, pillow, kiwisolver, matplotlib\n",
+      "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.0 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.4.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
+    "cd /core && git checkout main && git pull origin main && pip install .\n",
+    "cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
+    "cd /systems && git checkout main && git pull origin main && pip install .\n",
+    "cd /dataloader && git checkout main && git pull origin main && pip install .\n",
+    "pip install matplotlib"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "152aee86",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.6.4)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Downloading...\n",
+      "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "To: /workspace/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.36MB/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
+      "Hit:2 http://archive.ubuntu.com/ubuntu focal InRelease\n",
+      "Get:3 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Fetched 336 kB in 2s (148 kB/s)\n",
+      "Reading package lists...\n",
+      "Reading package lists...\n",
+      "Building dependency tree...\n",
+      "Reading state information...\n",
+      "unzip is already the newest version (6.0-25ubuntu1.1).\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 84 not upgraded.\n",
+      "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
+      "   creating: ecom_dataset/0001/\n",
+      "  inflating: ecom_dataset/0001/valid.parquet  \n",
+      " extracting: ecom_dataset/0001/.zip  \n",
+      "  inflating: ecom_dataset/0001/train.parquet  \n",
+      "  inflating: ecom_dataset/0001/test.parquet  \n",
+      "   creating: ecom_dataset/0002/\n",
+      "  inflating: ecom_dataset/0002/valid.parquet  \n",
+      "  inflating: ecom_dataset/0002/train.parquet  \n",
+      "  inflating: ecom_dataset/0002/test.parquet  \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-09 06:10:25.833595: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-09 06:10:28.225812: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:28.226230: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:28.226389: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:28.434063: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-09 06:10:28.435067: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:28.435273: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:28.435435: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:29.175980: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:29.176211: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:29.176375: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:10:29.176489: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-09 06:10:29.176551: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "mlp_block = mm.MLPBlock(\n",
+    "                [128,d_model],\n",
+    "                activation='relu',\n",
+    "                no_activation_last_layer=True,\n",
+    "            )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "7f15a0a0",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "schema = TensorflowMetadata.from_proto_text_file(\n",
+    "    './',\n",
+    "    file_name='rees46_schema_modified.pbtxt'\n",
+    ").to_merlin_schema()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "74ccc9a9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train.schema = schema"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "5a4c7ca3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "input_block = mm.InputBlockV2(\n",
+    "    train.schema.select_by_name('sess_pid_seq'),    \n",
+    "    embeddings=mm.Embeddings(\n",
+    "        train.schema.select_by_name('sess_pid_seq'), \n",
+    "        sequence_combiner=None,\n",
+    "        dim=d_model\n",
+    "        ),\n",
+    "    pre=mm.StochasticSwapNoise()\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "34c739b3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train.schema = train.schema.select_by_name('sess_pid_seq')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "14c35b2a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "866f3249",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "dense_block = mm.SequentialBlock(\n",
+    "    input_block,\n",
+    "    mlp_block,\n",
+    "    xlnet_block\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "288d08df",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "mlp_block2 = mm.MLPBlock(\n",
+    "                [128,d_model],\n",
+    "                activation='relu',\n",
+    "                no_activation_last_layer=True,\n",
+    "            )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "064ea5ec",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "prediction_task = mm.CategoricalOutput(\n",
+    "    to_call=input_block[\"categorical\"][target],\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "6c008e16",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "id": "49b12d31",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "optimizer = tf.keras.optimizers.Adam(\n",
+    "    learning_rate=learning_rate,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "id": "d84a30d3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[4])\n",
+    "             )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9a9611ab",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# model_transformer.fit(\n",
+    "#     train,\n",
+    "#     batch_size=batch_size,\n",
+    "#     epochs=n_epoch,\n",
+    "#     pre=mm.SequencePredictRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    "# )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 46,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "665/665 [==============================] - 74s 107ms/step - loss: 8.9015 - recall_at_4: 0.0224 - mrr_at_4: 0.0129 - ndcg_at_4: 0.0153 - map_at_4: 0.0129 - precision_at_4: 0.0056 - regularization_loss: 0.0000e+00 - loss_batch: 8.8957\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "<keras.callbacks.History at 0x7efd2854ff70>"
+      ]
+     },
+     "execution_count": 46,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 47,
+   "id": "7bf839e3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 49,
+   "id": "15ccc448",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 8s 40ms/step - loss: 8.8326 - recall_at_4: 0.0502 - mrr_at_4: 0.0319 - ndcg_at_4: 0.0365 - map_at_4: 0.0319 - precision_at_4: 0.0126 - regularization_loss: 0.0000e+00 - loss_batch: 8.8396\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.832579612731934,\n",
+       " 'recall_at_4': 0.05087455362081528,\n",
+       " 'mrr_at_4': 0.030891483649611473,\n",
+       " 'ndcg_at_4': 0.0359138660132885,\n",
+       " 'map_at_4': 0.030891483649611473,\n",
+       " 'precision_at_4': 0.01271863840520382,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.142295837402344}"
+      ]
+     },
+     "execution_count": 49,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/train_and_save_model_for_benchmarking.ipynb b/train_and_save_model_for_benchmarking.ipynb
index 98a6460224..0f43a5dac9 100644
--- a/train_and_save_model_for_benchmarking.ipynb
+++ b/train_and_save_model_for_benchmarking.ipynb
@@ -763,7 +763,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 1,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],

From 73d08d74070ed0302055969cfffe905e7f7210fa Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Thu, 9 Mar 2023 16:20:22 +1000
Subject: [PATCH 03/15] update

---
 .../rees46_schema_modified.pbtxt              |  0
 .../reproducing_T4Rec_results.ipynb           | 54 +++++++------------
 ...rain_and_save_model_for_benchmarking.ipynb |  0
 3 files changed, 20 insertions(+), 34 deletions(-)
 rename rees46_schema_modified.pbtxt => T4Rec_repro/rees46_schema_modified.pbtxt (100%)
 rename reproducing_T4Rec_results.ipynb => T4Rec_repro/reproducing_T4Rec_results.ipynb (92%)
 rename train_and_save_model_for_benchmarking.ipynb => T4Rec_repro/train_and_save_model_for_benchmarking.ipynb (100%)

diff --git a/rees46_schema_modified.pbtxt b/T4Rec_repro/rees46_schema_modified.pbtxt
similarity index 100%
rename from rees46_schema_modified.pbtxt
rename to T4Rec_repro/rees46_schema_modified.pbtxt
diff --git a/reproducing_T4Rec_results.ipynb b/T4Rec_repro/reproducing_T4Rec_results.ipynb
similarity index 92%
rename from reproducing_T4Rec_results.ipynb
rename to T4Rec_repro/reproducing_T4Rec_results.ipynb
index 7b066f2f65..3191b7651f 100644
--- a/reproducing_T4Rec_results.ipynb
+++ b/T4Rec_repro/reproducing_T4Rec_results.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "markdown",
-   "id": "7f851659",
+   "id": "14beb6b6",
    "metadata": {},
    "source": [
     "These are logs from training the following model from the CI script from T4Rec (the trianing was for 5 epochs):\n",
@@ -14,7 +14,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "c0369401",
+   "id": "7010a6a1",
    "metadata": {},
    "source": [
     "And here are the logs and the results, maybe reproducing that is something that we could work towards (the XLNet with MLM is what I used for benchmarking T4Rec, starting with it would be great)"
@@ -22,7 +22,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "e26066be",
+   "id": "d4955dd7",
    "metadata": {},
    "source": [
     "03/09/2023 04:21:44 - WARNING - __main__ -   Process rank: -1, device: cuda:0, n_gpu: 1, distributed training: False, 16-bits training: True\n",
@@ -1417,41 +1417,27 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 46,
+   "execution_count": 27,
    "id": "e7474131",
    "metadata": {},
    "outputs": [
     {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "665/665 [==============================] - 74s 107ms/step - loss: 8.9015 - recall_at_4: 0.0224 - mrr_at_4: 0.0129 - ndcg_at_4: 0.0153 - map_at_4: 0.0129 - precision_at_4: 0.0056 - regularization_loss: 0.0000e+00 - loss_batch: 8.8957\n"
+     "ename": "TypeError",
+     "evalue": "('Keyword argument not understood:', 'transformer')",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[27], line 5\u001b[0m\n\u001b[1;32m      1\u001b[0m model_transformer\u001b[38;5;241m.\u001b[39mfit(\n\u001b[1;32m      2\u001b[0m     train,\n\u001b[1;32m      3\u001b[0m     batch_size\u001b[38;5;241m=\u001b[39mbatch_size,\n\u001b[1;32m      4\u001b[0m     epochs\u001b[38;5;241m=\u001b[39mn_epoch,\n\u001b[0;32m----> 5\u001b[0m     pre\u001b[38;5;241m=\u001b[39m\u001b[43mmm\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mSequenceMaskRandom\u001b[49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrain\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtransformer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mxlnet_block\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m      6\u001b[0m )\n",
+      "File \u001b[0;32m/workspace/merlin/models/tf/transforms/sequence.py:469\u001b[0m, in \u001b[0;36mSequenceMaskRandom.__init__\u001b[0;34m(self, schema, target, masking_prob, **kwargs)\u001b[0m\n\u001b[1;32m    461\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\n\u001b[1;32m    462\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    463\u001b[0m     schema: Schema,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    466\u001b[0m     \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs,\n\u001b[1;32m    467\u001b[0m ):\n\u001b[1;32m    468\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmasking_prob \u001b[38;5;241m=\u001b[39m masking_prob\n\u001b[0;32m--> 469\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/workspace/merlin/models/tf/transforms/sequence.py:103\u001b[0m, in \u001b[0;36mSequenceTransform.__init__\u001b[0;34m(self, schema, target, pre, **kwargs)\u001b[0m\n\u001b[1;32m    101\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m pre:\n\u001b[1;32m    102\u001b[0m     _pre \u001b[38;5;241m=\u001b[39m _pre\u001b[38;5;241m.\u001b[39mconnect(pre)\n\u001b[0;32m--> 103\u001b[0m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mpre\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43m_pre\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    105\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtarget \u001b[38;5;241m=\u001b[39m target\n\u001b[1;32m    106\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtarget_name \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_target(target)\n",
+      "File \u001b[0;32m/workspace/merlin/models/tf/core/tabular.py:122\u001b[0m, in \u001b[0;36mTabularBlock.__init__\u001b[0;34m(self, pre, post, aggregation, schema, name, is_input, **kwargs)\u001b[0m\n\u001b[1;32m    112\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\n\u001b[1;32m    113\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    114\u001b[0m     pre: Optional[BlockType] \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    120\u001b[0m     \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs,\n\u001b[1;32m    121\u001b[0m ):\n\u001b[0;32m--> 122\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mname\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mname\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    123\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39minput_size \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[1;32m    124\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mset_pre(pre)\n",
+      "File \u001b[0;32m/workspace/merlin/models/tf/core/base.py:166\u001b[0m, in \u001b[0;36mBlock.__init__\u001b[0;34m(self, context, **kwargs)\u001b[0m\n\u001b[1;32m    165\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\u001b[38;5;28mself\u001b[39m, context: Optional[ModelContext] \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[0;32m--> 166\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mBlock\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    167\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m context:\n\u001b[1;32m    168\u001b[0m         \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_set_context(context)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/tensorflow/python/trackable/base.py:205\u001b[0m, in \u001b[0;36mno_automatic_dependency_tracking.<locals>._method_wrapper\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m    203\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_self_setattr_tracking \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mFalse\u001b[39;00m  \u001b[38;5;66;03m# pylint: disable=protected-access\u001b[39;00m\n\u001b[1;32m    204\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 205\u001b[0m   result \u001b[38;5;241m=\u001b[39m \u001b[43mmethod\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    206\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n\u001b[1;32m    207\u001b[0m   \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_self_setattr_tracking \u001b[38;5;241m=\u001b[39m previous_value  \u001b[38;5;66;03m# pylint: disable=protected-access\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/engine/base_layer.py:335\u001b[0m, in \u001b[0;36mLayer.__init__\u001b[0;34m(self, trainable, name, dtype, dynamic, **kwargs)\u001b[0m\n\u001b[1;32m    324\u001b[0m allowed_kwargs \u001b[38;5;241m=\u001b[39m {\n\u001b[1;32m    325\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124minput_dim\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[1;32m    326\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124minput_shape\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    332\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mimplementation\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[1;32m    333\u001b[0m }\n\u001b[1;32m    334\u001b[0m \u001b[38;5;66;03m# Validate optional keyword arguments.\u001b[39;00m\n\u001b[0;32m--> 335\u001b[0m \u001b[43mgeneric_utils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mvalidate_kwargs\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mallowed_kwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    337\u001b[0m \u001b[38;5;66;03m# Mutable properties\u001b[39;00m\n\u001b[1;32m    338\u001b[0m \u001b[38;5;66;03m# Indicates whether the layer's weights are updated during training\u001b[39;00m\n\u001b[1;32m    339\u001b[0m \u001b[38;5;66;03m# and whether the layer's updates are run during training.\u001b[39;00m\n\u001b[1;32m    340\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\n\u001b[1;32m    341\u001b[0m     \u001b[38;5;28misinstance\u001b[39m(trainable, \u001b[38;5;28mbool\u001b[39m)\n\u001b[1;32m    342\u001b[0m     \u001b[38;5;129;01mor\u001b[39;00m (\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    345\u001b[0m     )\n\u001b[1;32m    346\u001b[0m ):\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/utils/generic_utils.py:1269\u001b[0m, in \u001b[0;36mvalidate_kwargs\u001b[0;34m(kwargs, allowed_kwargs, error_message)\u001b[0m\n\u001b[1;32m   1267\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m kwarg \u001b[38;5;129;01min\u001b[39;00m kwargs:\n\u001b[1;32m   1268\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m kwarg \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m allowed_kwargs:\n\u001b[0;32m-> 1269\u001b[0m         \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mTypeError\u001b[39;00m(error_message, kwarg)\n",
+      "\u001b[0;31mTypeError\u001b[0m: ('Keyword argument not understood:', 'transformer')"
      ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "<keras.callbacks.History at 0x7efd2854ff70>"
-      ]
-     },
-     "execution_count": 46,
-     "metadata": {},
-     "output_type": "execute_result"
     }
    ],
    "source": [
@@ -1459,7 +1445,7 @@
     "    train,\n",
     "    batch_size=batch_size,\n",
     "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
     ")"
    ]
   },
diff --git a/train_and_save_model_for_benchmarking.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
similarity index 100%
rename from train_and_save_model_for_benchmarking.ipynb
rename to T4Rec_repro/train_and_save_model_for_benchmarking.ipynb

From 60b457b057039a232a1166e6d2f220056044c249 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Thu, 9 Mar 2023 16:57:05 +1000
Subject: [PATCH 04/15] update

---
 T4Rec_repro/reproducing_T4Rec_results.ipynb | 522 +++++++++++---------
 1 file changed, 280 insertions(+), 242 deletions(-)

diff --git a/T4Rec_repro/reproducing_T4Rec_results.ipynb b/T4Rec_repro/reproducing_T4Rec_results.ipynb
index 3191b7651f..8788b157d2 100644
--- a/T4Rec_repro/reproducing_T4Rec_results.ipynb
+++ b/T4Rec_repro/reproducing_T4Rec_results.ipynb
@@ -269,49 +269,49 @@
       "    Preparing wheel metadata: finished with status 'done'\n",
       "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.10.0)\n",
       "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.0.4)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.56.4)\n",
-      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
       "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.19.6)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (22.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.5.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.0.0)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.0.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.56.4)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.64.1)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.12.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.12.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.5.0)\n",
+      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.4.3)\n",
+      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.22.4)\n",
       "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
       "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.12.0)\n",
       "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.39.1)\n",
       "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (45.2.0)\n",
       "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.2.0)\n",
-      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.22.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.8.2)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
       "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.1)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.8.2)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.4)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.1.3)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.9.4)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.0)\n",
       "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.1.2)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.4.0)\n",
       "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.7.0)\n",
       "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.26.13)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.4)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.9.4)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.57.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.1)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.4.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.1.0)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.11.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.14.0)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.1.1)\n",
       "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.4)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.1)\n"
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.1.1)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.0.0)\n"
      ]
     },
     {
@@ -321,8 +321,8 @@
       "Building wheels for collected packages: merlin-models\n",
       "  Building wheel for merlin-models (PEP 517): started\n",
       "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+6.ga92bdc24-py3-none-any.whl size=374609 sha256=2aa872a5f1575151273bcc94d5c4b0205a1f22af84ab44d48d9f75d74f9daa93\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-l8ge0dm1/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+6.ga92bdc24-py3-none-any.whl size=374609 sha256=a5077403f59b4f6c38be0d098b696c96fde6e874ac02e12d04bba00c7dcb9ab2\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-rxmtwiq_/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
       "Successfully built merlin-models\n",
       "Installing collected packages: merlin-models\n",
       "  Attempting uninstall: merlin-models\n",
@@ -483,61 +483,61 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (8.0.0)\n",
       "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.5.0)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (22.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (11.4.1)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
       "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (3.19.6)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.3.5)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (8.0.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (0.56.4)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n"
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.2.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (11.4.1)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.2.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.12.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (4.64.1)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2.8.2)\n",
-      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.22.4)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (45.2.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.3.5)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (0.56.4)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (22.0)\n",
+      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core==0.9.0+56.gaad0c874) (1.22.4)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
       "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (0.12.0)\n",
       "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (0.4.3)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.7.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.1)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.26.13)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.4)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (0.12.0)\n",
       "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (5.9.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.4)\n",
       "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.4.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (3.1.2)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.1)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.26.13)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.7.0)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (8.1.3)\n",
       "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (3.1.2)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (0.4.3)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.57.0)\n",
       "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.14.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (3.11.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2022.7)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (0.39.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.1)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.1.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.4)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (3.11.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.1)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.0.0)\n",
       "Building wheels for collected packages: merlin-core\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+56.gaad0c874-py3-none-any.whl size=152601 sha256=e6e379a2bc1756cddf2a2ed74086c0071fd68f95bba9432dae3f8096116fbb8a\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-nvai80xu/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+56.gaad0c874-py3-none-any.whl size=152601 sha256=dcee4602a77df64eb864c60e8cb155c6b8a165a9059ee943770248cef063bf37\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-hkriw5ee/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
       "Successfully built merlin-core\n",
       "Installing collected packages: merlin-core\n",
       "  Attempting uninstall: merlin-core\n",
@@ -656,64 +656,64 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+56.gaad0c874)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
       "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+56.gaad0c874)\n",
+      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
       "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
       "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
       "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
       "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n"
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
       "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
       "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
       "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
       "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n",
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=33bd39a7ce6bd4d1b7e81ef0ecd16abcffc75944d1a9a8510902f42658baf22e\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ws2h8usp/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=4c4a37dcdcff0046a7edf1346f3664903218a14a689ef96388354d679c1a3da3\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-c7pdm8dg/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
       "Installing collected packages: nvtabular\n",
       "  Attempting uninstall: nvtabular\n",
@@ -834,71 +834,71 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
       "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+56.gaad0c874)\n",
-      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
       "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
       "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
       "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
       "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (11.4.1)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
       "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
       "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
       "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
       "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
-      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n"
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
       "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
       "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
       "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
       "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
       "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
       "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
       "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
       "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
       "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
       "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
       "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
       "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=50ebea88cab88355f4a562867fa250a1754ad79ba82ab44a242f1451ff918f50\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ig69oyt6/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=7400ab8e12273b15c96f94806974ef168f6bbc63e5a02a9fccf0905f0ea10f43\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-_zkkhk4v/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
@@ -970,61 +970,61 @@
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
       "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+41.gdbf8816) (0.9.0+56.gaad0c874)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (11.4.1)\n",
       "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.56.4)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.12.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
       "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.19.6)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
       "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.5.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (11.4.1)\n",
       "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
+      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
       "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.39.1)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
       "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.0)\n",
       "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.4.3)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.1.3)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
       "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.1)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
       "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.1.2)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n"
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.11.0)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.1.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.4)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
       "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.1)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.0.0)\n",
       "Building wheels for collected packages: merlin-dataloader\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=90d5b8cd5d1b74f242a2d155c11b3a4c34b029ef43f752c03f8f8b0a357be6b3\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-6c80kdug/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=25522e9c2124926ac2063828d36ae15009e18cb85666b6ebf5c29cdd24213231\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-vvfapbst/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
       "Successfully built merlin-dataloader\n",
       "Installing collected packages: merlin-dataloader\n",
       "  Attempting uninstall: merlin-dataloader\n",
@@ -1034,24 +1034,24 @@
       "Successfully installed merlin-dataloader-0.0.2+41.gdbf8816\n",
       "Collecting matplotlib\n",
       "  Downloading matplotlib-3.7.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (9.2 MB)\n",
-      "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
       "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
-      "Collecting fonttools>=4.22.0\n",
-      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
-      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
       "Collecting cycler>=0.10\n",
       "  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)\n",
-      "Collecting contourpy>=1.0.1\n",
-      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
-      "Collecting pillow>=6.2.0\n",
-      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
-      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
       "Collecting kiwisolver>=1.0.1\n",
       "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
       "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
+      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
+      "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
+      "Collecting fonttools>=4.22.0\n",
+      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
+      "Collecting pillow>=6.2.0\n",
+      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
+      "Collecting contourpy>=1.0.1\n",
+      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
+      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
       "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n",
-      "Installing collected packages: fonttools, cycler, contourpy, pillow, kiwisolver, matplotlib\n",
+      "Installing collected packages: cycler, kiwisolver, fonttools, pillow, contourpy, matplotlib\n",
       "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.0 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.4.0\n"
      ]
     }
@@ -1069,7 +1069,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 2,
    "id": "152aee86",
    "metadata": {},
    "outputs": [
@@ -1077,18 +1077,22 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.6.4)\n",
-      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Collecting gdown\n",
+      "  Downloading gdown-4.6.4-py3-none-any.whl (14 kB)\n",
       "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
-      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
-      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
       "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
       "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
-      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n",
-      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n"
+      "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
+      "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
+      "Installing collected packages: gdown, PySocks\n",
+      "Successfully installed PySocks-1.7.1 gdown-4.6.4\n"
      ]
     },
     {
@@ -1097,20 +1101,35 @@
      "text": [
       "Downloading...\n",
       "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-      "To: /workspace/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.36MB/s]\n"
+      "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.42MB/s]\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
-      "Hit:2 http://archive.ubuntu.com/ubuntu focal InRelease\n",
-      "Get:3 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
-      "Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
-      "Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Fetched 336 kB in 2s (148 kB/s)\n",
+      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [907 kB]\n",
+      "Get:3 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:4 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1998 kB]\n",
+      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:9 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2539 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:11 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1015 kB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1310 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2134 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3014 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Fetched 26.5 MB in 11s (2470 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
@@ -1154,10 +1173,8 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-09 06:10:25.833595: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
+      "2023-03-09 06:23:10.964331: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
      ]
     },
     {
@@ -1171,21 +1188,23 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-09 06:10:28.225812: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:28.226230: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:28.226389: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:28.434063: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-09 06:10:28.435067: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:28.435273: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:28.435435: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:29.175980: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:29.176211: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:29.176375: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:10:29.176489: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-09 06:10:29.176551: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-09 06:23:13.408883: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:13.409336: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:13.409494: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
-      "  from .autonotebook import tqdm as notebook_tqdm\n"
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-09 06:23:13.887706: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-09 06:23:13.888643: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:13.888853: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:13.889008: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:14.636457: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:14.636673: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:14.636835: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-09 06:23:14.636950: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-09 06:23:14.637016: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
      ]
     }
    ],
@@ -1225,7 +1244,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 21,
+   "execution_count": 4,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
@@ -1290,7 +1309,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 22,
    "id": "5a4c7ca3",
    "metadata": {},
    "outputs": [],
@@ -1302,13 +1321,13 @@
     "        sequence_combiner=None,\n",
     "        dim=d_model\n",
     "        ),\n",
-    "    pre=mm.StochasticSwapNoise()\n",
+    "#     pre=mm.StochasticSwapNoise()\n",
     ")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 14,
+   "execution_count": 23,
    "id": "34c739b3",
    "metadata": {},
    "outputs": [],
@@ -1318,7 +1337,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 15,
+   "execution_count": 24,
    "id": "14c35b2a",
    "metadata": {},
    "outputs": [],
@@ -1328,7 +1347,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 25,
    "id": "866f3249",
    "metadata": {},
    "outputs": [],
@@ -1342,7 +1361,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 17,
+   "execution_count": 26,
    "id": "288d08df",
    "metadata": {},
    "outputs": [],
@@ -1356,7 +1375,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 18,
+   "execution_count": 27,
    "id": "064ea5ec",
    "metadata": {},
    "outputs": [],
@@ -1368,7 +1387,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 19,
+   "execution_count": 28,
    "id": "6c008e16",
    "metadata": {},
    "outputs": [],
@@ -1378,7 +1397,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 25,
+   "execution_count": 29,
    "id": "49b12d31",
    "metadata": {},
    "outputs": [],
@@ -1390,54 +1409,48 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 35,
    "id": "d84a30d3",
    "metadata": {},
    "outputs": [],
    "source": [
     "model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
-    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[4])\n",
+    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10])\n",
     "             )"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
-   "id": "9a9611ab",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# model_transformer.fit(\n",
-    "#     train,\n",
-    "#     batch_size=batch_size,\n",
-    "#     epochs=n_epoch,\n",
-    "#     pre=mm.SequencePredictRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    "# )"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": 36,
    "id": "e7474131",
    "metadata": {},
    "outputs": [
     {
-     "ename": "TypeError",
-     "evalue": "('Keyword argument not understood:', 'transformer')",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
-      "Cell \u001b[0;32mIn[27], line 5\u001b[0m\n\u001b[1;32m      1\u001b[0m model_transformer\u001b[38;5;241m.\u001b[39mfit(\n\u001b[1;32m      2\u001b[0m     train,\n\u001b[1;32m      3\u001b[0m     batch_size\u001b[38;5;241m=\u001b[39mbatch_size,\n\u001b[1;32m      4\u001b[0m     epochs\u001b[38;5;241m=\u001b[39mn_epoch,\n\u001b[0;32m----> 5\u001b[0m     pre\u001b[38;5;241m=\u001b[39m\u001b[43mmm\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mSequenceMaskRandom\u001b[49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrain\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtransformer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mxlnet_block\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m      6\u001b[0m )\n",
-      "File \u001b[0;32m/workspace/merlin/models/tf/transforms/sequence.py:469\u001b[0m, in \u001b[0;36mSequenceMaskRandom.__init__\u001b[0;34m(self, schema, target, masking_prob, **kwargs)\u001b[0m\n\u001b[1;32m    461\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\n\u001b[1;32m    462\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    463\u001b[0m     schema: Schema,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    466\u001b[0m     \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs,\n\u001b[1;32m    467\u001b[0m ):\n\u001b[1;32m    468\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmasking_prob \u001b[38;5;241m=\u001b[39m masking_prob\n\u001b[0;32m--> 469\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
-      "File \u001b[0;32m/workspace/merlin/models/tf/transforms/sequence.py:103\u001b[0m, in \u001b[0;36mSequenceTransform.__init__\u001b[0;34m(self, schema, target, pre, **kwargs)\u001b[0m\n\u001b[1;32m    101\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m pre:\n\u001b[1;32m    102\u001b[0m     _pre \u001b[38;5;241m=\u001b[39m _pre\u001b[38;5;241m.\u001b[39mconnect(pre)\n\u001b[0;32m--> 103\u001b[0m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mpre\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43m_pre\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    105\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtarget \u001b[38;5;241m=\u001b[39m target\n\u001b[1;32m    106\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtarget_name \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_target(target)\n",
-      "File \u001b[0;32m/workspace/merlin/models/tf/core/tabular.py:122\u001b[0m, in \u001b[0;36mTabularBlock.__init__\u001b[0;34m(self, pre, post, aggregation, schema, name, is_input, **kwargs)\u001b[0m\n\u001b[1;32m    112\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\n\u001b[1;32m    113\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    114\u001b[0m     pre: Optional[BlockType] \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    120\u001b[0m     \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs,\n\u001b[1;32m    121\u001b[0m ):\n\u001b[0;32m--> 122\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mname\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mname\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    123\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39minput_size \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[1;32m    124\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mset_pre(pre)\n",
-      "File \u001b[0;32m/workspace/merlin/models/tf/core/base.py:166\u001b[0m, in \u001b[0;36mBlock.__init__\u001b[0;34m(self, context, **kwargs)\u001b[0m\n\u001b[1;32m    165\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\u001b[38;5;28mself\u001b[39m, context: Optional[ModelContext] \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[0;32m--> 166\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mBlock\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    167\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m context:\n\u001b[1;32m    168\u001b[0m         \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_set_context(context)\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/tensorflow/python/trackable/base.py:205\u001b[0m, in \u001b[0;36mno_automatic_dependency_tracking.<locals>._method_wrapper\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m    203\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_self_setattr_tracking \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mFalse\u001b[39;00m  \u001b[38;5;66;03m# pylint: disable=protected-access\u001b[39;00m\n\u001b[1;32m    204\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 205\u001b[0m   result \u001b[38;5;241m=\u001b[39m \u001b[43mmethod\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    206\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n\u001b[1;32m    207\u001b[0m   \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_self_setattr_tracking \u001b[38;5;241m=\u001b[39m previous_value  \u001b[38;5;66;03m# pylint: disable=protected-access\u001b[39;00m\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/engine/base_layer.py:335\u001b[0m, in \u001b[0;36mLayer.__init__\u001b[0;34m(self, trainable, name, dtype, dynamic, **kwargs)\u001b[0m\n\u001b[1;32m    324\u001b[0m allowed_kwargs \u001b[38;5;241m=\u001b[39m {\n\u001b[1;32m    325\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124minput_dim\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[1;32m    326\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124minput_shape\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    332\u001b[0m     \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mimplementation\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[1;32m    333\u001b[0m }\n\u001b[1;32m    334\u001b[0m \u001b[38;5;66;03m# Validate optional keyword arguments.\u001b[39;00m\n\u001b[0;32m--> 335\u001b[0m \u001b[43mgeneric_utils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mvalidate_kwargs\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mallowed_kwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    337\u001b[0m \u001b[38;5;66;03m# Mutable properties\u001b[39;00m\n\u001b[1;32m    338\u001b[0m \u001b[38;5;66;03m# Indicates whether the layer's weights are updated during training\u001b[39;00m\n\u001b[1;32m    339\u001b[0m \u001b[38;5;66;03m# and whether the layer's updates are run during training.\u001b[39;00m\n\u001b[1;32m    340\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\n\u001b[1;32m    341\u001b[0m     \u001b[38;5;28misinstance\u001b[39m(trainable, \u001b[38;5;28mbool\u001b[39m)\n\u001b[1;32m    342\u001b[0m     \u001b[38;5;129;01mor\u001b[39;00m (\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    345\u001b[0m     )\n\u001b[1;32m    346\u001b[0m ):\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/utils/generic_utils.py:1269\u001b[0m, in \u001b[0;36mvalidate_kwargs\u001b[0;34m(kwargs, allowed_kwargs, error_message)\u001b[0m\n\u001b[1;32m   1267\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m kwarg \u001b[38;5;129;01min\u001b[39;00m kwargs:\n\u001b[1;32m   1268\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m kwarg \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m allowed_kwargs:\n\u001b[0;32m-> 1269\u001b[0m         \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mTypeError\u001b[39;00m(error_message, kwarg)\n",
-      "\u001b[0;31mTypeError\u001b[0m: ('Keyword argument not understood:', 'transformer')"
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 78s 110ms/step - loss: 3.7036 - recall_at_10: 0.6067 - mrr_at_10: 0.4806 - ndcg_at_10: 0.5108 - map_at_10: 0.4806 - precision_at_10: 0.0607 - regularization_loss: 0.0000e+00 - loss_batch: 3.7070\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 2.9681 - recall_at_10: 0.6940 - mrr_at_10: 0.5792 - ndcg_at_10: 0.6068 - map_at_10: 0.5792 - precision_at_10: 0.0694 - regularization_loss: 0.0000e+00 - loss_batch: 2.9733\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 2.5195 - recall_at_10: 0.7439 - mrr_at_10: 0.6367 - ndcg_at_10: 0.6625 - map_at_10: 0.6367 - precision_at_10: 0.0744 - regularization_loss: 0.0000e+00 - loss_batch: 2.5258\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 2.2286 - recall_at_10: 0.7810 - mrr_at_10: 0.6800 - ndcg_at_10: 0.7043 - map_at_10: 0.6800 - precision_at_10: 0.0781 - regularization_loss: 0.0000e+00 - loss_batch: 2.2364\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 2.0158 - recall_at_10: 0.8031 - mrr_at_10: 0.7071 - ndcg_at_10: 0.7302 - map_at_10: 0.7071 - precision_at_10: 0.0803 - regularization_loss: 0.0000e+00 - loss_batch: 2.0250\n"
      ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "<keras.callbacks.History at 0x7f6d0f8735e0>"
+      ]
+     },
+     "execution_count": 36,
+     "metadata": {},
+     "output_type": "execute_result"
     }
    ],
    "source": [
@@ -1445,13 +1458,13 @@
     "    train,\n",
     "    batch_size=batch_size,\n",
     "    epochs=n_epoch,\n",
-    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
     ")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 47,
+   "execution_count": 37,
    "id": "7bf839e3",
    "metadata": {},
    "outputs": [],
@@ -1461,7 +1474,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 49,
+   "execution_count": 38,
    "id": "15ccc448",
    "metadata": {},
    "outputs": [
@@ -1469,23 +1482,23 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "84/84 [==============================] - 8s 40ms/step - loss: 8.8326 - recall_at_4: 0.0502 - mrr_at_4: 0.0319 - ndcg_at_4: 0.0365 - map_at_4: 0.0319 - precision_at_4: 0.0126 - regularization_loss: 0.0000e+00 - loss_batch: 8.8396\n"
+      "84/84 [==============================] - 8s 40ms/step - loss: 8.7361 - recall_at_10: 0.1869 - mrr_at_10: 0.0721 - ndcg_at_10: 0.0988 - map_at_10: 0.0721 - precision_at_10: 0.0187 - regularization_loss: 0.0000e+00 - loss_batch: 8.7682\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.832579612731934,\n",
-       " 'recall_at_4': 0.05087455362081528,\n",
-       " 'mrr_at_4': 0.030891483649611473,\n",
-       " 'ndcg_at_4': 0.0359138660132885,\n",
-       " 'map_at_4': 0.030891483649611473,\n",
-       " 'precision_at_4': 0.01271863840520382,\n",
+       "{'loss': 8.73610782623291,\n",
+       " 'recall_at_10': 0.1859131157398224,\n",
+       " 'mrr_at_10': 0.07267787307500839,\n",
+       " 'ndcg_at_10': 0.09902743250131607,\n",
+       " 'map_at_10': 0.07267787307500839,\n",
+       " 'precision_at_10': 0.01859130710363388,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.142295837402344}"
+       " 'loss_batch': 10.154594421386719}"
       ]
      },
-     "execution_count": 49,
+     "execution_count": 38,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -1498,6 +1511,31 @@
     "    return_dict=True\n",
     ")"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 39,
+   "id": "17fd65b9",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'eval_/next-item/ndcg_at_10': 0.08305524289608002,\n",
+       " 'eval_/next-item/ndcg_at_20': 0.09936655312776566,\n",
+       " 'eval_/next-item/recall_at_10': 0.15436746180057526,\n",
+       " 'eval_/next-item/recall_at_20': 0.2190323770046234,\n",
+       " 'eval_/loss': 8.334789276123047}"
+      ]
+     },
+     "execution_count": 39,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "{'eval_/next-item/ndcg_at_10': 0.08305524289608002, 'eval_/next-item/ndcg_at_20': 0.09936655312776566, 'eval_/next-item/recall_at_10': 0.15436746180057526, 'eval_/next-item/recall_at_20': 0.2190323770046234, 'eval_/loss': 8.334789276123047}"
+   ]
   }
  ],
  "metadata": {

From 9c0d2d1e0dcec0bc7f70d99723afe2460ec23ad2 Mon Sep 17 00:00:00 2001
From: sararb <sara.rabhi@gmail.com>
Date: Thu, 9 Mar 2023 20:58:43 +0000
Subject: [PATCH 05/15] new version of reproducing_T4Rec_results with mlm
 training

---
 .../reproducing_T4Rec_results_v1.ipynb        | 821 ++++++++++++++++++
 1 file changed, 821 insertions(+)
 create mode 100644 T4Rec_repro/reproducing_T4Rec_results_v1.ipynb

diff --git a/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb b/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb
new file mode 100644
index 0000000000..7048c3725f
--- /dev/null
+++ b/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb
@@ -0,0 +1,821 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "14beb6b6",
+   "metadata": {},
+   "source": [
+    "These are logs from training the following model from the CI script from T4Rec (the trianing was for 5 epochs):\n",
+    "\n",
+    "`### XLNet (MLM) - Item Id feature\n",
+    "python3 transf_exp_main_modified.py --output_dir ./tmp/ --overwrite_output_dir --do_train --do_eval --validate_every 10 --logging_steps 20 --save_steps 0 --data_path $DATA_PATH --features_schema_path $FEATURE_SCHEMA_PATH --fp16 --data_loader_engine merlin --start_time_window_index 1 --final_time_window_index 2 --time_window_folder_pad_digits 4 --model_type xlnet --loss_type cross_entropy --per_device_eval_batch_size 128 --similarity_type concat_mlp --tf_out_activation tanh --inp_merge mlp --learning_rate_warmup_steps 0 --learning_rate_schedule linear_with_warmup --hidden_act gelu --num_train_epochs $NUM_EPOCHS --dataloader_drop_last --compute_metrics_each_n_steps 1 --session_seq_length_max 20 --eval_on_last_item_seq_only --mf_constrained_embeddings --layer_norm_featurewise --attn_type bi --mlm --per_device_train_batch_size 128 --learning_rate 0.0006667377132554976 --dropout 0.0 --input_dropout 0.1 --weight_decay 3.910060265627374e-05 --d_model 192 --item_embedding_dim 448 --n_layer 3 --n_head 16 --label_smoothing 0.0 --stochastic_shared_embeddings_replacement_prob 0.1 --item_id_embeddings_init_std 0.11 --other_embeddings_init_std 0.02 --mlm_probability 0.30000000000000004 --eval_on_test_set --seed 100 --report_to none\n",
+    "`"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7010a6a1",
+   "metadata": {},
+   "source": [
+    "And here are the logs and the results, maybe reproducing that is something that we could work towards (the XLNet with MLM is what I used for benchmarking T4Rec, starting with it would be great)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "54d6ef61",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * [new branch]        ci/horovod             -> origin/ci/horovod\n",
+      " * [new branch]        codespell_fix          -> origin/codespell_fix\n",
+      "   16fb4149..b1c10317  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
+      " * [new branch]        fea-sok-load-dump      -> origin/fea-sok-load-dump\n",
+      "   95462360..a69adf75  gh-pages               -> origin/gh-pages\n",
+      " * [new branch]        mtl_example            -> origin/mtl_example\n",
+      "   cb431a8a..b90e9a1b  release-22.12          -> origin/release-22.12\n",
+      " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]        tf/dataloader_changes  -> origin/tf/dataloader_changes\n",
+      " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " + 169f3df5...06eecddd tf/output-block        -> origin/tf/output-block  (forced update)\n",
+      " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]        tf/quick_start_ranking -> origin/tf/quick_start_ranking\n",
+      " + 0a65d603...9f53e8ff update_07              -> origin/update_07  (forced update)\n",
+      " * [new tag]           v23.02.00              -> v23.02.00\n",
+      "error: Your local changes to the following files would be overwritten by checkout:\n",
+      "\tT4Rec_repro/reproducing_T4Rec_results.ipynb\n",
+      "Please commit your changes or stash them before you switch branches.\n",
+      "Aborting\n",
+      "Warning: you are leaving 2 commits behind, not connected to\n",
+      "any of your branches:\n",
+      "\n",
+      "  e284ebd Merge branch 'main' of https://github.com/NVIDIA-Merlin/core into HEAD\n",
+      "  b2372e4 Merge branch 'main' of https://github.com/NVIDIA-Merlin/core into HEAD\n",
+      "\n",
+      "If you want to keep them by creating a new branch, this may be a good time\n",
+      "to do so with:\n",
+      "\n",
+      " git branch <new-branch-name> e284ebd\n",
+      "\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is behind 'origin/main' by 22 commits, and can be fast-forwarded.\n",
+      "  (use \"git pull\" to update your local branch)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   5dbafa68..aad0c874 main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating cd96ca5f..aad0c874\n",
+      "Fast-forward\n",
+      " .github/release-drafter.yml                        |  44 +--\n",
+      " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
+      " .../ISSUE_TEMPLATE/documentation-request.md        |  12 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
+      " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
+      " .github/workflows/cpu-ci.yml                       | 145 +++-------\n",
+      " .github/workflows/cpu-models.yml                   |  52 ++--\n",
+      " .github/workflows/cpu-nvtabular.yml                |  52 ++--\n",
+      " .github/workflows/cpu-packages.yml                 | 126 +++++++++\n",
+      " .github/workflows/cpu-systems.yml                  |  52 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 +-\n",
+      " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .pre-commit-config.yaml                            |  55 ++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |  28 +-\n",
+      " README.md                                          |  68 ++---\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " docs/README.md                                     |  49 ++--\n",
+      " merlin/core/compat.py                              |  59 +++-\n",
+      " merlin/core/dispatch.py                            |  51 +++-\n",
+      " merlin/dag/__init__.py                             |   1 +\n",
+      " merlin/dag/base_operator.py                        |  30 +-\n",
+      " merlin/dag/dictarray.py                            |   3 +-\n",
+      " merlin/dag/executors.py                            | 107 ++++---\n",
+      " merlin/dag/graph.py                                |  20 ++\n",
+      " merlin/dag/node.py                                 |   2 +-\n",
+      " merlin/dag/utils.py                                |  69 +++++\n",
+      " merlin/dispatch/lazy.py                            | 152 ++++++++++\n",
+      " merlin/dtypes/__init__.py                          |  60 ++++\n",
+      " merlin/dtypes/aliases.py                           |  52 ++++\n",
+      " merlin/dtypes/base.py                              | 178 ++++++++++++\n",
+      " merlin/dtypes/mapping.py                           | 173 ++++++++++++\n",
+      " merlin/dtypes/mappings/__init__.py                 |  18 ++\n",
+      " merlin/dtypes/mappings/cudf.py                     |  57 ++++\n",
+      " merlin/dtypes/mappings/numpy.py                    |  52 ++++\n",
+      " merlin/dtypes/mappings/pandas.py                   |  38 +++\n",
+      " merlin/dtypes/mappings/python.py                   |  31 ++\n",
+      " merlin/dtypes/mappings/tf.py                       |  52 ++++\n",
+      " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
+      " merlin/dtypes/mappings/triton.py                   |  53 ++++\n",
+      " merlin/dtypes/registry.py                          | 142 ++++++++++\n",
+      " merlin/dtypes/shape.py                             | 183 ++++++++++++\n",
+      " merlin/io/avro.py                                  |   4 -\n",
+      " merlin/io/csv.py                                   |   1 -\n",
+      " merlin/io/dask.py                                  |   6 +-\n",
+      " merlin/io/dataset.py                               |  19 +-\n",
+      " merlin/io/fsspec_utils.py                          |   8 +-\n",
+      " merlin/io/parquet.py                               |   8 -\n",
+      " merlin/io/writer.py                                |   1 -\n",
+      " merlin/schema/io/tensorflow_metadata.py            |  86 +++---\n",
+      " merlin/schema/schema.py                            | 298 +++++++++++---------\n",
+      " merlin/table/__init__.py                           |  24 ++\n",
+      " merlin/table/conversions.py                        | 135 +++++++++\n",
+      " merlin/table/cupy_column.py                        |  92 ++++++\n",
+      " merlin/table/numpy_column.py                       | 100 +++++++\n",
+      " merlin/table/tensor_column.py                      | 217 ++++++++++++++\n",
+      " merlin/table/tensor_table.py                       | 222 +++++++++++++++\n",
+      " merlin/table/tensorflow_column.py                  | 159 +++++++++++\n",
+      " merlin/table/torch_column.py                       | 124 ++++++++\n",
+      " requirements.txt                                   |   5 +-\n",
+      " tests/conftest.py                                  |  16 +-\n",
+      " tests/unit/core/test_dispatch.py                   |  19 ++\n",
+      " tests/unit/core/test_version.py                    |   4 +\n",
+      " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
+      " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
+      " tests/unit/dtypes/test_module.py                   |  48 ++++\n",
+      " tests/unit/dtypes/test_shape.py                    | 222 +++++++++++++++\n",
+      " tests/unit/io/test_io.py                           |  27 +-\n",
+      " tests/unit/schema/test_column_schemas.py           | 142 ++++++----\n",
+      " tests/unit/schema/test_schema.py                   |   7 +-\n",
+      " tests/unit/schema/test_schema_io.py                |  27 +-\n",
+      " tests/unit/table/test_convert_column.py            |  75 +++++\n",
+      " tests/unit/table/test_tensor_column.py             | 186 ++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 311 +++++++++++++++++++++\n",
+      " tests/unit/utils/test_utils.py                     |   3 -\n",
+      " tox.ini                                            |   4 +\n",
+      " 80 files changed, 4413 insertions(+), 672 deletions(-)\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/dag/utils.py\n",
+      " create mode 100644 merlin/dispatch/lazy.py\n",
+      " create mode 100644 merlin/dtypes/__init__.py\n",
+      " create mode 100644 merlin/dtypes/aliases.py\n",
+      " create mode 100644 merlin/dtypes/base.py\n",
+      " create mode 100644 merlin/dtypes/mapping.py\n",
+      " create mode 100644 merlin/dtypes/mappings/__init__.py\n",
+      " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
+      " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
+      " create mode 100644 merlin/dtypes/mappings/python.py\n",
+      " create mode 100644 merlin/dtypes/mappings/tf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/torch.py\n",
+      " create mode 100644 merlin/dtypes/mappings/triton.py\n",
+      " create mode 100644 merlin/dtypes/registry.py\n",
+      " create mode 100644 merlin/dtypes/shape.py\n",
+      " create mode 100644 merlin/table/__init__.py\n",
+      " create mode 100644 merlin/table/conversions.py\n",
+      " create mode 100644 merlin/table/cupy_column.py\n",
+      " create mode 100644 merlin/table/numpy_column.py\n",
+      " create mode 100644 merlin/table/tensor_column.py\n",
+      " create mode 100644 merlin/table/tensor_table.py\n",
+      " create mode 100644 merlin/table/tensorflow_column.py\n",
+      " create mode 100644 merlin/table/torch_column.py\n",
+      " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
+      " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
+      " create mode 100644 tests/unit/dtypes/test_module.py\n",
+      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
+      " create mode 100644 tests/unit/table/test_convert_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_table.py\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (0.56.4)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.2.5)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.5.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.3.5)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (8.0.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (11.4.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.12.0)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "ERROR: Operation cancelled by user\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Error while terminating subprocess (pid=1791146): \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
+    "cd /core && git checkout main && git pull origin main && pip install .\n",
+    "cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
+    "cd /systems && git checkout main && git pull origin main && pip install .\n",
+    "cd /dataloader && git checkout main && git pull origin main && pip install .\n",
+    "pip install matplotlib"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "152aee86",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-09 18:01:08.237320: I tensorflow/core/platform/cpu_feature_guard.cc:151] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-09 18:01:17.553146: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:214] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-09 18:01:17.554189: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1525] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24570 MB memory:  -> device: 0, name: NVIDIA RTX A6000, pci bus id: 0000:65:00.0, compute capability: 8.6\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Set the hyperparams similar to T4Rec benchmark script\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "weight_decay = 3.910060265627374e-05 \n",
+    "n_epoch = 5\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3\n",
+    "input_dropout = 0.1\n",
+    "initializer_range = 0.02\n",
+    "layer_norm_eps = 1e-12\n",
+    "dropout = 0\n",
+    "mlm_prob = 0.3\n",
+    "eval_on_test_set = True\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "e181e9c0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "if eval_on_test_set:  \n",
+    "    valid = Dataset(\"ecom_dataset/0002/test.parquet\")\n",
+    "else: \n",
+    "    valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "d9f121dc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "cec55f74",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.models.tf.core.tabular import TabularBlock\n",
+    "\n",
+    "# Create equivalent class of T4Rec's TabularDroupout\n",
+    "class TabularDropout(TabularBlock):\n",
+    "    \"\"\"\n",
+    "    Applies dropout transformation.\n",
+    "    \"\"\"\n",
+    "\n",
+    "    def __init__(self, dropout_rate=0.0):\n",
+    "        super().__init__()\n",
+    "        self.dropout = tf.keras.layers.Dropout(dropout_rate)\n",
+    "\n",
+    "    def forward(self, inputs, **kwargs):\n",
+    "        outputs = {key: self.dropout(val) for key, val in inputs.items()}  # type: ignore\n",
+    "        return outputs\n",
+    "\n",
+    "# Create equivalent class of T4Rec's 'layer-norm'\n",
+    "class TabularNorm(TabularBlock):\n",
+    "    \"\"\"\n",
+    "    Applies layr-norm transformation.\n",
+    "    \"\"\"\n",
+    "\n",
+    "    def __init__(self):\n",
+    "        super().__init__()\n",
+    "        self.layer_norm = tf.keras.layers.LayerNormalization()\n",
+    "\n",
+    "    def forward(self, inputs, **kwargs):\n",
+    "        outputs = {key: self.layer_norm(val) for key, val in inputs.items()}  # type: ignore\n",
+    "        return outputs\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "72a286ba",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "schema = TensorflowMetadata.from_proto_text_file(\n",
+    "    './',\n",
+    "    file_name='rees46_schema_modified.pbtxt'\n",
+    ").to_merlin_schema()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "71f59155",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# we only use the item-id as input to the model\n",
+    "schema_model = schema.select_by_tag(Tags.ITEM_ID)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "d07aa5f1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.models.tf import InputBlockV2\n",
+    "import tensorflow as tf\n",
+    "input_block = InputBlockV2(\n",
+    "    schema_model,\n",
+    "    categorical=mm.Embeddings(\n",
+    "            schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "            dim=item_embedding_dim,\n",
+    "            #This is equivalent of torch.nn.init.normal_\n",
+    "            embeddings_initializer=tf.keras.initializers.RandomNormal(\n",
+    "                mean=0.0,\n",
+    "                stddev=item_id_embeddings_init_std\n",
+    "            ),\n",
+    "            sequence_combiner=None,\n",
+    "        ),\n",
+    "    #pre=mm.StochasticSwapNoise(schema_model, replacement_prob=0.1) # This is not working with sequences transforms\n",
+    "    # we apply dropout and layer-norm as post-processing steps before aggregation\n",
+    "    post=TabularDropout(input_dropout).connect(TabularNorm())\n",
+    "    )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "74b6d3d9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# projet the output of the input block into the same dimension as d_model (equivalent of d_output in T4Rec)\n",
+    "mlp_block = mm.MLPBlock(\n",
+    "    [d_model],\n",
+    "    activation='relu',\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "14c35b2a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# set the xlnet block with the necessary parameters\n",
+    "xlnet_block = mm.XLNetBlock(\n",
+    "    d_model=d_model, \n",
+    "    n_head=n_head, \n",
+    "    n_layer=n_layer, \n",
+    "    attn_type='bi', \n",
+    "    hidden_act='gelu', \n",
+    "    initializer_range=initializer_range, \n",
+    "    layer_norm_eps=layer_norm_eps, \n",
+    "    dropout=0\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "866f3249",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "dense_block = mm.SequentialBlock(\n",
+    "    input_block,\n",
+    "    mlp_block,\n",
+    "    xlnet_block\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "4beb1a9f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Project the output of the transformer to the same dimension as `item_embedding_dim`\n",
+    "# this is needed for weight-tying\n",
+    "mlp_block2 = mm.MLPBlock(\n",
+    "    [item_embedding_dim],\n",
+    "    activation='relu',\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "064ea5ec",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# set next-item prediction task with weight tying option by providing the embeddings table of the `item-id` \n",
+    "# as the `to_call` layer\n",
+    "prediction_task = mm.CategoricalOutput(\n",
+    "    to_call=input_block[\"categorical\"][target],\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "6c008e16",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-09 18:01:20.111251: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Create the end-to-end Keras model\n",
+    "model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "8b89e82b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Implements optimizer with linear decay of the learning rate. This is what T4Rec pytorch-trainer is using. \n",
+    "\n",
+    "# For that we will use the custom optimizer `AdamWeightDecay` provided by HuggingFace\n",
+    "from transformers.optimization_tf import AdamWeightDecay\n",
+    "\n",
+    "\n",
+    "num_warmup_steps = 0\n",
+    "# compute the total steps in the training iteration:\n",
+    "import math\n",
+    "steps_per_epoch = math.floor(train.compute().shape[0] / batch_size)\n",
+    "total_step = steps_per_epoch * n_epoch\n",
+    "\n",
+    "# Set the linear-decay learning scheduler\n",
+    "lr_schedule = tf.keras.optimizers.schedules.PolynomialDecay(\n",
+    "    initial_learning_rate=learning_rate,\n",
+    "    decay_steps=total_step,\n",
+    "    power=1,\n",
+    ")\n",
+    "# Set the optimizer with the `weight_decay` rate\n",
+    "if weight_decay > 0.0:\n",
+    "    optimizer = AdamWeightDecay(\n",
+    "        learning_rate=lr_schedule,\n",
+    "        weight_decay_rate=weight_decay,\n",
+    "    )\n",
+    "else: \n",
+    "    optimizer = AdamWeightDecay(learning_rate=lr_schedule)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "d84a30d3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# compile the model with ranking metrics computed at 10 and 20 thresholds\n",
+    "model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10, 20])\n",
+    "             )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "id": "d8cc8e14",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Align the schema of the dataloader and the schema used by the model\n",
+    "train.schema = schema_model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-09 18:01:47.567695: I tensorflow/stream_executor/cuda/cuda_blas.cc:1786] TensorFloat-32 will be used for the matrix multiplication. This will only be logged once.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss`argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss`argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-09 18:02:45.911807: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 202s 204ms/step - loss: 13.5418 - recall_at_10: 0.0333 - mrr_at_10: 0.0120 - ndcg_at_10: 0.0170 - map_at_10: 0.0120 - precision_at_10: 0.0033 - recall_at_20: 0.0524 - mrr_at_20: 0.0133 - ndcg_at_20: 0.0218 - map_at_20: 0.0133 - precision_at_20: 0.0026 - regularization_loss: 0.0000e+00 - loss_batch: 13.5668\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 135s 200ms/step - loss: 12.3608 - recall_at_10: 0.0430 - mrr_at_10: 0.0149 - ndcg_at_10: 0.0214 - map_at_10: 0.0149 - precision_at_10: 0.0043 - recall_at_20: 0.0656 - mrr_at_20: 0.0164 - ndcg_at_20: 0.0271 - map_at_20: 0.0164 - precision_at_20: 0.0033 - regularization_loss: 0.0000e+00 - loss_batch: 12.3602\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 139s 205ms/step - loss: 12.0906 - recall_at_10: 0.0435 - mrr_at_10: 0.0154 - ndcg_at_10: 0.0219 - map_at_10: 0.0154 - precision_at_10: 0.0043 - recall_at_20: 0.0672 - mrr_at_20: 0.0170 - ndcg_at_20: 0.0279 - map_at_20: 0.0170 - precision_at_20: 0.0034 - regularization_loss: 0.0000e+00 - loss_batch: 12.0902\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 134s 197ms/step - loss: 11.8980 - recall_at_10: 0.0423 - mrr_at_10: 0.0158 - ndcg_at_10: 0.0220 - map_at_10: 0.0158 - precision_at_10: 0.0042 - recall_at_20: 0.0648 - mrr_at_20: 0.0173 - ndcg_at_20: 0.0276 - map_at_20: 0.0173 - precision_at_20: 0.0032 - regularization_loss: 0.0000e+00 - loss_batch: 11.8978\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 136s 200ms/step - loss: 11.7795 - recall_at_10: 0.0421 - mrr_at_10: 0.0154 - ndcg_at_10: 0.0216 - map_at_10: 0.0154 - precision_at_10: 0.0042 - recall_at_20: 0.0659 - mrr_at_20: 0.0170 - ndcg_at_20: 0.0276 - map_at_20: 0.0170 - precision_at_20: 0.0033 - regularization_loss: 0.0000e+00 - loss_batch: 11.7790\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "<keras.callbacks.History at 0x7f880c7b16a0>"
+      ]
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Launch a training iteration with `n_epoch` epochs\n",
+    "# For mlm, we need to use `SequenceMaskRandom` and specify the masking probability\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block, masking_prob=mlm_prob)\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "id": "7bf839e3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Evaluate using `SequenceMaskLast` to mask the last item only\n",
+    "valid.schema = schema_model\n",
+    "predict_last = mm.SequenceMaskLast(schema=valid.schema, target=target, transformer=xlnet_block)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "id": "15ccc448",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "2023-03-09 18:28:21.499587: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model/sequential_block_5/xl_net_block/sequential_block_8/replace_masked_embeddings/RaggedWhere/Assert/AssertGuard/branch_executed/_23\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 34s 128ms/step - loss: 11.7879 - recall_at_10: 0.0458 - mrr_at_10: 0.0155 - ndcg_at_10: 0.0225 - map_at_10: 0.0155 - precision_at_10: 0.0046 - recall_at_20: 0.0711 - mrr_at_20: 0.0171 - ndcg_at_20: 0.0288 - map_at_20: 0.0171 - precision_at_20: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 11.7897\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 11.787938117980957,\n",
+       " 'recall_at_10': 0.0489937923848629,\n",
+       " 'mrr_at_10': 0.017020391300320625,\n",
+       " 'ndcg_at_10': 0.024413621053099632,\n",
+       " 'map_at_10': 0.017020391300320625,\n",
+       " 'precision_at_10': 0.004899379797279835,\n",
+       " 'recall_at_20': 0.07645288854837418,\n",
+       " 'mrr_at_20': 0.018829816952347755,\n",
+       " 'ndcg_at_20': 0.03123626857995987,\n",
+       " 'map_at_20': 0.018829816952347755,\n",
+       " 'precision_at_20': 0.003822644241154194,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 11.866037368774414}"
+      ]
+     },
+     "execution_count": 26,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "17fd65b9",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'eval_/next-item/ndcg_at_10': 0.08305524289608002,\n",
+       " 'eval_/next-item/ndcg_at_20': 0.09936655312776566,\n",
+       " 'eval_/next-item/recall_at_10': 0.15436746180057526,\n",
+       " 'eval_/next-item/recall_at_20': 0.2190323770046234,\n",
+       " 'eval_/loss': 8.334789276123047}"
+      ]
+     },
+     "execution_count": 22,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "{'eval_/next-item/ndcg_at_10': 0.08305524289608002, 'eval_/next-item/ndcg_at_20': 0.09936655312776566, 'eval_/next-item/recall_at_10': 0.15436746180057526, 'eval_/next-item/recall_at_20': 0.2190323770046234, 'eval_/loss': 8.334789276123047}"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

From 1881cb1a20cf059c3cae14c97b9acbd0fcfede2e Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Mon, 13 Mar 2023 14:22:06 +1000
Subject: [PATCH 06/15] update

---
 T4Rec_repro/train_runs/clm_item_id_min.ipynb | 640 +++++++++++++++++++
 T4Rec_repro/train_runs/mlm_item_id_min.ipynb | 640 +++++++++++++++++++
 2 files changed, 1280 insertions(+)
 create mode 100644 T4Rec_repro/train_runs/clm_item_id_min.ipynb
 create mode 100644 T4Rec_repro/train_runs/mlm_item_id_min.ipynb

diff --git a/T4Rec_repro/train_runs/clm_item_id_min.ipynb b/T4Rec_repro/train_runs/clm_item_id_min.ipynb
new file mode 100644
index 0000000000..ff5eabbe86
--- /dev/null
+++ b/T4Rec_repro/train_runs/clm_item_id_min.ipynb
@@ -0,0 +1,640 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-10 13:19:41.332031: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-10 13:19:43.702598: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:43.703049: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:43.703227: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-10 13:19:44.148806: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-10 13:19:44.149822: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.150030: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.150185: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.891194: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.891419: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.891582: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:19:44.891696: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-10 13:19:44.891761: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [128,d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        '../',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        train.schema.select_by_name('sess_pid_seq'),    \n",
+    "        embeddings=mm.Embeddings(\n",
+    "            train.schema.select_by_name('sess_pid_seq'), \n",
+    "            sequence_combiner=None,\n",
+    "            dim=d_model\n",
+    "            ),\n",
+    "    #     pre=mm.StochasticSwapNoise()\n",
+    "    )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [128,d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "46b9f788",
+   "metadata": {},
+   "source": [
+    "# Run 1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-10 13:19:51.258201: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 83s 110ms/step - loss: 8.9114 - recall_at_10: 0.0409 - mrr_at_10: 0.0151 - ndcg_at_10: 0.0211 - map_at_10: 0.0151 - precision_at_10: 0.0041 - regularization_loss: 0.0000e+00 - loss_batch: 8.9101\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 5.7403 - recall_at_10: 0.2994 - mrr_at_10: 0.1857 - ndcg_at_10: 0.2126 - map_at_10: 0.1857 - precision_at_10: 0.0299 - regularization_loss: 0.0000e+00 - loss_batch: 5.7358\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.8640 - recall_at_10: 0.5785 - mrr_at_10: 0.4536 - ndcg_at_10: 0.4835 - map_at_10: 0.4536 - precision_at_10: 0.0579 - regularization_loss: 0.0000e+00 - loss_batch: 3.8700\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.0672 - recall_at_10: 0.6808 - mrr_at_10: 0.5664 - ndcg_at_10: 0.5939 - map_at_10: 0.5664 - precision_at_10: 0.0681 - regularization_loss: 0.0000e+00 - loss_batch: 3.0720\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 2.6008 - recall_at_10: 0.7369 - mrr_at_10: 0.6298 - ndcg_at_10: 0.6556 - map_at_10: 0.6298 - precision_at_10: 0.0737 - regularization_loss: 0.0000e+00 - loss_batch: 2.6062\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.7419 - recall_at_10: 0.1679 - mrr_at_10: 0.0639 - ndcg_at_10: 0.0881 - map_at_10: 0.0639 - precision_at_10: 0.0168 - regularization_loss: 0.0000e+00 - loss_batch: 8.7705\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.741933822631836,\n",
+       " 'recall_at_10': 0.16701146960258484,\n",
+       " 'mrr_at_10': 0.06411589682102203,\n",
+       " 'ndcg_at_10': 0.08810190856456757,\n",
+       " 'map_at_10': 0.06411589682102203,\n",
+       " 'precision_at_10': 0.016701148822903633,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.003721237182617}"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a070554f",
+   "metadata": {},
+   "source": [
+    "# Run 2"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "566e2f90",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 9.0406 - recall_at_10: 0.0356 - mrr_at_10: 0.0130 - ndcg_at_10: 0.0183 - map_at_10: 0.0130 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.0326\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.0845 - recall_at_10: 0.2649 - mrr_at_10: 0.1565 - ndcg_at_10: 0.1821 - map_at_10: 0.1565 - precision_at_10: 0.0265 - regularization_loss: 0.0000e+00 - loss_batch: 6.0807\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 4.2293 - recall_at_10: 0.5184 - mrr_at_10: 0.3883 - ndcg_at_10: 0.4194 - map_at_10: 0.3883 - precision_at_10: 0.0518 - regularization_loss: 0.0000e+00 - loss_batch: 4.2323\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.3441 - recall_at_10: 0.6468 - mrr_at_10: 0.5229 - ndcg_at_10: 0.5526 - map_at_10: 0.5229 - precision_at_10: 0.0647 - regularization_loss: 0.0000e+00 - loss_batch: 3.3486\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 2.8789 - recall_at_10: 0.7051 - mrr_at_10: 0.5871 - ndcg_at_10: 0.6155 - map_at_10: 0.5871 - precision_at_10: 0.0705 - regularization_loss: 0.0000e+00 - loss_batch: 2.8854\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.8279 - recall_at_10: 0.1584 - mrr_at_10: 0.0624 - ndcg_at_10: 0.0847 - map_at_10: 0.0624 - precision_at_10: 0.0158 - regularization_loss: 0.0000e+00 - loss_batch: 8.8674\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.827858924865723,\n",
+       " 'recall_at_10': 0.15591499209403992,\n",
+       " 'mrr_at_10': 0.06090494617819786,\n",
+       " 'ndcg_at_10': 0.08297329396009445,\n",
+       " 'map_at_10': 0.06090494617819786,\n",
+       " 'precision_at_10': 0.01559150218963623,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.57563304901123}"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8c785bb1",
+   "metadata": {},
+   "source": [
+    "# Run 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "7cc9685e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 8.9635 - recall_at_10: 0.0396 - mrr_at_10: 0.0146 - ndcg_at_10: 0.0204 - map_at_10: 0.0146 - precision_at_10: 0.0040 - regularization_loss: 0.0000e+00 - loss_batch: 8.9589\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.2358 - recall_at_10: 0.2417 - mrr_at_10: 0.1391 - ndcg_at_10: 0.1633 - map_at_10: 0.1391 - precision_at_10: 0.0242 - regularization_loss: 0.0000e+00 - loss_batch: 6.2350\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 4.4725 - recall_at_10: 0.4996 - mrr_at_10: 0.3675 - ndcg_at_10: 0.3991 - map_at_10: 0.3675 - precision_at_10: 0.0500 - regularization_loss: 0.0000e+00 - loss_batch: 4.4748\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.6489 - recall_at_10: 0.6128 - mrr_at_10: 0.4839 - ndcg_at_10: 0.5148 - map_at_10: 0.4839 - precision_at_10: 0.0613 - regularization_loss: 0.0000e+00 - loss_batch: 3.6543\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.2122 - recall_at_10: 0.6626 - mrr_at_10: 0.5353 - ndcg_at_10: 0.5659 - map_at_10: 0.5353 - precision_at_10: 0.0663 - regularization_loss: 0.0000e+00 - loss_batch: 3.2164\n",
+      "84/84 [==============================] - 7s 39ms/step - loss: 8.8321 - recall_at_10: 0.1434 - mrr_at_10: 0.0582 - ndcg_at_10: 0.0781 - map_at_10: 0.0582 - precision_at_10: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 8.8607\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.832069396972656,\n",
+       " 'recall_at_10': 0.1426556259393692,\n",
+       " 'mrr_at_10': 0.05639006569981575,\n",
+       " 'ndcg_at_10': 0.07650619745254517,\n",
+       " 'map_at_10': 0.05639006569981575,\n",
+       " 'precision_at_10': 0.01426556333899498,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.100401878356934}"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7b90a1c5",
+   "metadata": {},
+   "source": [
+    "# Run 4"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "66f1dbfe",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 9.0739 - recall_at_10: 0.0361 - mrr_at_10: 0.0125 - ndcg_at_10: 0.0180 - map_at_10: 0.0125 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.0756\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.4023 - recall_at_10: 0.2372 - mrr_at_10: 0.1349 - ndcg_at_10: 0.1591 - map_at_10: 0.1349 - precision_at_10: 0.0237 - regularization_loss: 0.0000e+00 - loss_batch: 6.4020\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 4.7934 - recall_at_10: 0.4544 - mrr_at_10: 0.3194 - ndcg_at_10: 0.3516 - map_at_10: 0.3194 - precision_at_10: 0.0454 - regularization_loss: 0.0000e+00 - loss_batch: 4.7958\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.7131 - recall_at_10: 0.5913 - mrr_at_10: 0.4595 - ndcg_at_10: 0.4911 - map_at_10: 0.4595 - precision_at_10: 0.0591 - regularization_loss: 0.0000e+00 - loss_batch: 3.7160\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.0900 - recall_at_10: 0.6752 - mrr_at_10: 0.5537 - ndcg_at_10: 0.5829 - map_at_10: 0.5537 - precision_at_10: 0.0675 - regularization_loss: 0.0000e+00 - loss_batch: 3.0945\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.9225 - recall_at_10: 0.1426 - mrr_at_10: 0.0581 - ndcg_at_10: 0.0778 - map_at_10: 0.0581 - precision_at_10: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 8.9683\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.922541618347168,\n",
+       " 'recall_at_10': 0.14425428211688995,\n",
+       " 'mrr_at_10': 0.057682257145643234,\n",
+       " 'ndcg_at_10': 0.077837273478508,\n",
+       " 'map_at_10': 0.057682257145643234,\n",
+       " 'precision_at_10': 0.014425428584218025,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.947548866271973}"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a1734c21",
+   "metadata": {},
+   "source": [
+    "# Run 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "03b380f7",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 9.0454 - recall_at_10: 0.0381 - mrr_at_10: 0.0139 - ndcg_at_10: 0.0195 - map_at_10: 0.0139 - precision_at_10: 0.0038 - regularization_loss: 0.0000e+00 - loss_batch: 9.0386\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.3489 - recall_at_10: 0.2430 - mrr_at_10: 0.1385 - ndcg_at_10: 0.1632 - map_at_10: 0.1385 - precision_at_10: 0.0243 - regularization_loss: 0.0000e+00 - loss_batch: 6.3435\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 4.7853 - recall_at_10: 0.4602 - mrr_at_10: 0.3227 - ndcg_at_10: 0.3555 - map_at_10: 0.3227 - precision_at_10: 0.0460 - regularization_loss: 0.0000e+00 - loss_batch: 4.7868\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.6873 - recall_at_10: 0.6026 - mrr_at_10: 0.4710 - ndcg_at_10: 0.5025 - map_at_10: 0.4710 - precision_at_10: 0.0603 - regularization_loss: 0.0000e+00 - loss_batch: 3.6936\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.0298 - recall_at_10: 0.6856 - mrr_at_10: 0.5650 - ndcg_at_10: 0.5940 - map_at_10: 0.5650 - precision_at_10: 0.0686 - regularization_loss: 0.0000e+00 - loss_batch: 3.0363\n",
+      "84/84 [==============================] - 8s 40ms/step - loss: 8.6711 - recall_at_10: 0.1505 - mrr_at_10: 0.0595 - ndcg_at_10: 0.0807 - map_at_10: 0.0595 - precision_at_10: 0.0151 - regularization_loss: 0.0000e+00 - loss_batch: 8.6999\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.671070098876953,\n",
+       " 'recall_at_10': 0.15074290335178375,\n",
+       " 'mrr_at_10': 0.05898994952440262,\n",
+       " 'ndcg_at_10': 0.08035662025213242,\n",
+       " 'map_at_10': 0.05898994952440262,\n",
+       " 'precision_at_10': 0.015074292197823524,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.946744918823242}"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6fe3b07c",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/T4Rec_repro/train_runs/mlm_item_id_min.ipynb b/T4Rec_repro/train_runs/mlm_item_id_min.ipynb
new file mode 100644
index 0000000000..df90cc786b
--- /dev/null
+++ b/T4Rec_repro/train_runs/mlm_item_id_min.ipynb
@@ -0,0 +1,640 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-10 13:57:07.721314: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-10 13:57:10.129984: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:10.130437: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:10.130617: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-10 13:57:10.581209: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-10 13:57:10.582030: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:10.582283: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:10.582439: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:11.330242: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:11.330454: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:11.330615: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-10 13:57:11.330728: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-10 13:57:11.330790: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [128,d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        '../',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        train.schema.select_by_name('sess_pid_seq'),    \n",
+    "        embeddings=mm.Embeddings(\n",
+    "            train.schema.select_by_name('sess_pid_seq'), \n",
+    "            sequence_combiner=None,\n",
+    "            dim=d_model\n",
+    "            ),\n",
+    "    #     pre=mm.StochasticSwapNoise()\n",
+    "    )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [128,d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "78302207",
+   "metadata": {},
+   "source": [
+    "# Run 1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-10 13:57:17.631317: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 82s 110ms/step - loss: 8.8265 - recall_at_10: 0.0432 - mrr_at_10: 0.0166 - ndcg_at_10: 0.0228 - map_at_10: 0.0166 - precision_at_10: 0.0043 - regularization_loss: 0.0000e+00 - loss_batch: 8.8191\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 5.8014 - recall_at_10: 0.3091 - mrr_at_10: 0.1936 - ndcg_at_10: 0.2210 - map_at_10: 0.1936 - precision_at_10: 0.0309 - regularization_loss: 0.0000e+00 - loss_batch: 5.8019\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 4.1718 - recall_at_10: 0.5397 - mrr_at_10: 0.4080 - ndcg_at_10: 0.4394 - map_at_10: 0.4080 - precision_at_10: 0.0540 - regularization_loss: 0.0000e+00 - loss_batch: 4.1734\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.2806 - recall_at_10: 0.6585 - mrr_at_10: 0.5362 - ndcg_at_10: 0.5656 - map_at_10: 0.5362 - precision_at_10: 0.0658 - regularization_loss: 0.0000e+00 - loss_batch: 3.2849\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 2.8188 - recall_at_10: 0.7125 - mrr_at_10: 0.6007 - ndcg_at_10: 0.6276 - map_at_10: 0.6007 - precision_at_10: 0.0712 - regularization_loss: 0.0000e+00 - loss_batch: 2.8246\n",
+      "84/84 [==============================] - 7s 39ms/step - loss: 8.8107 - recall_at_10: 0.1511 - mrr_at_10: 0.0623 - ndcg_at_10: 0.0829 - map_at_10: 0.0623 - precision_at_10: 0.0151 - regularization_loss: 0.0000e+00 - loss_batch: 8.8298\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.810694694519043,\n",
+       " 'recall_at_10': 0.15318788588047028,\n",
+       " 'mrr_at_10': 0.06131112948060036,\n",
+       " 'ndcg_at_10': 0.08268804848194122,\n",
+       " 'map_at_10': 0.06131112948060036,\n",
+       " 'precision_at_10': 0.015318789519369602,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.6568603515625}"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "3513d28a",
+   "metadata": {},
+   "source": [
+    "# Run 2"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "2e624551",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 9.1281 - recall_at_10: 0.0359 - mrr_at_10: 0.0128 - ndcg_at_10: 0.0181 - map_at_10: 0.0128 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.1243\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.7038 - recall_at_10: 0.1907 - mrr_at_10: 0.1006 - ndcg_at_10: 0.1218 - map_at_10: 0.1006 - precision_at_10: 0.0191 - regularization_loss: 0.0000e+00 - loss_batch: 6.6971\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 4.9471 - recall_at_10: 0.4404 - mrr_at_10: 0.3077 - ndcg_at_10: 0.3393 - map_at_10: 0.3077 - precision_at_10: 0.0440 - regularization_loss: 0.0000e+00 - loss_batch: 4.9478\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.9842 - recall_at_10: 0.5607 - mrr_at_10: 0.4197 - ndcg_at_10: 0.4534 - map_at_10: 0.4197 - precision_at_10: 0.0561 - regularization_loss: 0.0000e+00 - loss_batch: 3.9878\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.3262 - recall_at_10: 0.6442 - mrr_at_10: 0.5172 - ndcg_at_10: 0.5477 - map_at_10: 0.5172 - precision_at_10: 0.0644 - regularization_loss: 0.0000e+00 - loss_batch: 3.3307\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.9716 - recall_at_10: 0.1277 - mrr_at_10: 0.0513 - ndcg_at_10: 0.0692 - map_at_10: 0.0513 - precision_at_10: 0.0128 - regularization_loss: 0.0000e+00 - loss_batch: 8.9960\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.971626281738281,\n",
+       " 'recall_at_10': 0.12817378342151642,\n",
+       " 'mrr_at_10': 0.05082216113805771,\n",
+       " 'ndcg_at_10': 0.06883765012025833,\n",
+       " 'map_at_10': 0.05082216113805771,\n",
+       " 'precision_at_10': 0.012817380018532276,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.049013137817383}"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d42dea65",
+   "metadata": {},
+   "source": [
+    "# Run 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "97e7322c",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 8.9307 - recall_at_10: 0.0396 - mrr_at_10: 0.0142 - ndcg_at_10: 0.0201 - map_at_10: 0.0142 - precision_at_10: 0.0040 - regularization_loss: 0.0000e+00 - loss_batch: 8.9265\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 5.9376 - recall_at_10: 0.2951 - mrr_at_10: 0.1842 - ndcg_at_10: 0.2105 - map_at_10: 0.1842 - precision_at_10: 0.0295 - regularization_loss: 0.0000e+00 - loss_batch: 5.9350\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 4.3616 - recall_at_10: 0.5184 - mrr_at_10: 0.3844 - ndcg_at_10: 0.4164 - map_at_10: 0.3844 - precision_at_10: 0.0518 - regularization_loss: 0.0000e+00 - loss_batch: 4.3657\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.4916 - recall_at_10: 0.6319 - mrr_at_10: 0.5057 - ndcg_at_10: 0.5359 - map_at_10: 0.5057 - precision_at_10: 0.0632 - regularization_loss: 0.0000e+00 - loss_batch: 3.4969\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.0021 - recall_at_10: 0.6889 - mrr_at_10: 0.5684 - ndcg_at_10: 0.5973 - map_at_10: 0.5684 - precision_at_10: 0.0689 - regularization_loss: 0.0000e+00 - loss_batch: 3.0072\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.7983 - recall_at_10: 0.1534 - mrr_at_10: 0.0599 - ndcg_at_10: 0.0816 - map_at_10: 0.0599 - precision_at_10: 0.0153 - regularization_loss: 0.0000e+00 - loss_batch: 8.8378\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.798320770263672,\n",
+       " 'recall_at_10': 0.15647922456264496,\n",
+       " 'mrr_at_10': 0.05985381081700325,\n",
+       " 'ndcg_at_10': 0.08228185027837753,\n",
+       " 'map_at_10': 0.05985381081700325,\n",
+       " 'precision_at_10': 0.015647921711206436,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.545936584472656}"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "610da911",
+   "metadata": {},
+   "source": [
+    "# Run 4"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "9e0f0891",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 8.8791 - recall_at_10: 0.0414 - mrr_at_10: 0.0155 - ndcg_at_10: 0.0215 - map_at_10: 0.0155 - precision_at_10: 0.0041 - regularization_loss: 0.0000e+00 - loss_batch: 8.8746\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 5.5817 - recall_at_10: 0.3289 - mrr_at_10: 0.2127 - ndcg_at_10: 0.2403 - map_at_10: 0.2127 - precision_at_10: 0.0329 - regularization_loss: 0.0000e+00 - loss_batch: 5.5795\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.8784 - recall_at_10: 0.5761 - mrr_at_10: 0.4489 - ndcg_at_10: 0.4793 - map_at_10: 0.4489 - precision_at_10: 0.0576 - regularization_loss: 0.0000e+00 - loss_batch: 3.8833\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 3.0679 - recall_at_10: 0.6797 - mrr_at_10: 0.5656 - ndcg_at_10: 0.5930 - map_at_10: 0.5656 - precision_at_10: 0.0680 - regularization_loss: 0.0000e+00 - loss_batch: 3.0749\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 2.5693 - recall_at_10: 0.7397 - mrr_at_10: 0.6350 - ndcg_at_10: 0.6602 - map_at_10: 0.6350 - precision_at_10: 0.0740 - regularization_loss: 0.0000e+00 - loss_batch: 2.5767\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.6399 - recall_at_10: 0.1581 - mrr_at_10: 0.0621 - ndcg_at_10: 0.0844 - map_at_10: 0.0621 - precision_at_10: 0.0158 - regularization_loss: 0.0000e+00 - loss_batch: 8.6637\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.63992691040039,\n",
+       " 'recall_at_10': 0.1588301658630371,\n",
+       " 'mrr_at_10': 0.06323756277561188,\n",
+       " 'ndcg_at_10': 0.0855293795466423,\n",
+       " 'map_at_10': 0.06323756277561188,\n",
+       " 'precision_at_10': 0.01588302105665207,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.691500663757324}"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6cffc60d",
+   "metadata": {},
+   "source": [
+    "# Run 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "6981ff6e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 80s 110ms/step - loss: 8.9605 - recall_at_10: 0.0390 - mrr_at_10: 0.0141 - ndcg_at_10: 0.0199 - map_at_10: 0.0141 - precision_at_10: 0.0039 - regularization_loss: 0.0000e+00 - loss_batch: 8.9571\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 75s 110ms/step - loss: 6.1194 - recall_at_10: 0.2618 - mrr_at_10: 0.1575 - ndcg_at_10: 0.1821 - map_at_10: 0.1575 - precision_at_10: 0.0262 - regularization_loss: 0.0000e+00 - loss_batch: 6.1199\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 4.4762 - recall_at_10: 0.5000 - mrr_at_10: 0.3647 - ndcg_at_10: 0.3970 - map_at_10: 0.3647 - precision_at_10: 0.0500 - regularization_loss: 0.0000e+00 - loss_batch: 4.4783\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.6222 - recall_at_10: 0.6166 - mrr_at_10: 0.4884 - ndcg_at_10: 0.5191 - map_at_10: 0.4884 - precision_at_10: 0.0617 - regularization_loss: 0.0000e+00 - loss_batch: 3.6248\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 75s 111ms/step - loss: 3.1115 - recall_at_10: 0.6744 - mrr_at_10: 0.5505 - ndcg_at_10: 0.5803 - map_at_10: 0.5505 - precision_at_10: 0.0674 - regularization_loss: 0.0000e+00 - loss_batch: 3.1192\n",
+      "84/84 [==============================] - 7s 40ms/step - loss: 8.8991 - recall_at_10: 0.1457 - mrr_at_10: 0.0572 - ndcg_at_10: 0.0776 - map_at_10: 0.0572 - precision_at_10: 0.0146 - regularization_loss: 0.0000e+00 - loss_batch: 8.9238\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.899141311645508,\n",
+       " 'recall_at_10': 0.14763964712619781,\n",
+       " 'mrr_at_10': 0.05743885040283203,\n",
+       " 'ndcg_at_10': 0.07836496829986572,\n",
+       " 'map_at_10': 0.05743885040283203,\n",
+       " 'precision_at_10': 0.014763964340090752,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.991716384887695}"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d195f16d",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

From 3c73f8e7b84ae1bbf2b23f3d32ace43790542ee2 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Tue, 14 Mar 2023 17:17:53 +1000
Subject: [PATCH 07/15] update

---
 ...lm_item_id_min.ipynb => clm_item_id.ipynb} | 262 +++---
 T4Rec_repro/train_runs/mlm_item_id.ipynb      | 808 ++++++++++++++++++
 T4Rec_repro/train_runs/mlm_item_id_min.ipynb  | 640 --------------
 3 files changed, 949 insertions(+), 761 deletions(-)
 rename T4Rec_repro/train_runs/{clm_item_id_min.ipynb => clm_item_id.ipynb} (60%)
 create mode 100644 T4Rec_repro/train_runs/mlm_item_id.ipynb
 delete mode 100644 T4Rec_repro/train_runs/mlm_item_id_min.ipynb

diff --git a/T4Rec_repro/train_runs/clm_item_id_min.ipynb b/T4Rec_repro/train_runs/clm_item_id.ipynb
similarity index 60%
rename from T4Rec_repro/train_runs/clm_item_id_min.ipynb
rename to T4Rec_repro/train_runs/clm_item_id.ipynb
index ff5eabbe86..afe12df6f5 100644
--- a/T4Rec_repro/train_runs/clm_item_id_min.ipynb
+++ b/T4Rec_repro/train_runs/clm_item_id.ipynb
@@ -10,7 +10,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-10 13:19:41.332031: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-03-13 20:54:36.957592: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
      ]
     },
@@ -27,21 +27,21 @@
      "text": [
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "2023-03-10 13:19:43.702598: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:43.703049: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:43.703227: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:39.345898: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:39.346296: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:39.346453: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
       "  from .autonotebook import tqdm as notebook_tqdm\n",
-      "2023-03-10 13:19:44.148806: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-03-13 20:54:39.777830: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-10 13:19:44.149822: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.150030: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.150185: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.891194: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.891419: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.891582: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:19:44.891696: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-10 13:19:44.891761: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+      "2023-03-13 20:54:39.778681: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:39.778886: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:39.779040: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:40.525430: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:40.525647: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:40.525808: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:54:40.525922: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-13 20:54:40.525983: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
      ]
     }
    ],
@@ -66,7 +66,7 @@
    "outputs": [],
    "source": [
     "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
-    "valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
    ]
   },
   {
@@ -93,7 +93,9 @@
     "n_head = 16\n",
     "batch_size = 128\n",
     "learning_rate = 0.0006667377132554976\n",
-    "n_epoch = 5"
+    "n_epoch = 5\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
    ]
   },
   {
@@ -105,7 +107,7 @@
    "source": [
     "def get_model():\n",
     "    mlp_block = mm.MLPBlock(\n",
-    "                    [128,d_model],\n",
+    "                    [d_model],\n",
     "                    activation='relu',\n",
     "                    no_activation_last_layer=True,\n",
     "                )\n",
@@ -118,16 +120,16 @@
     "    ).to_merlin_schema()\n",
     "\n",
     "    train.schema = schema\n",
-    "\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
     "    input_block = mm.InputBlockV2(\n",
-    "        train.schema.select_by_name('sess_pid_seq'),    \n",
-    "        embeddings=mm.Embeddings(\n",
-    "            train.schema.select_by_name('sess_pid_seq'), \n",
-    "            sequence_combiner=None,\n",
-    "            dim=d_model\n",
-    "            ),\n",
-    "    #     pre=mm.StochasticSwapNoise()\n",
-    "    )\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
     "\n",
     "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
     "\n",
@@ -140,7 +142,7 @@
     "    )\n",
     "\n",
     "    mlp_block2 = mm.MLPBlock(\n",
-    "                    [128,d_model],\n",
+    "                    [item_embedding_dim],\n",
     "                    activation='relu',\n",
     "                    no_activation_last_layer=True,\n",
     "                )\n",
@@ -156,7 +158,7 @@
     "    )\n",
     "\n",
     "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
-    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10])\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
     "                 )\n",
     "    return model_transformer, xlnet_block"
    ]
@@ -171,46 +173,23 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 11,
    "id": "e7474131",
    "metadata": {},
    "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Epoch 1/5\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-03-10 13:19:51.258201: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_5/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
       "  warnings.warn(\n"
      ]
     },
@@ -218,33 +197,33 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 83s 110ms/step - loss: 8.9114 - recall_at_10: 0.0409 - mrr_at_10: 0.0151 - ndcg_at_10: 0.0211 - map_at_10: 0.0151 - precision_at_10: 0.0041 - regularization_loss: 0.0000e+00 - loss_batch: 8.9101\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_5/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 150s 214ms/step - loss: 8.4001 - recall_at_20: 0.0827 - mrr_at_20: 0.0323 - ndcg_at_20: 0.0433 - map_at_20: 0.0323 - precision_at_20: 0.0041 - regularization_loss: 0.0000e+00 - loss_batch: 8.3857\n",
       "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 5.7403 - recall_at_10: 0.2994 - mrr_at_10: 0.1857 - ndcg_at_10: 0.2126 - map_at_10: 0.1857 - precision_at_10: 0.0299 - regularization_loss: 0.0000e+00 - loss_batch: 5.7358\n",
+      "677/677 [==============================] - 159s 234ms/step - loss: 3.2173 - recall_at_20: 0.6874 - mrr_at_20: 0.5632 - ndcg_at_20: 0.5917 - map_at_20: 0.5632 - precision_at_20: 0.0344 - regularization_loss: 0.0000e+00 - loss_batch: 3.2233\n",
       "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.8640 - recall_at_10: 0.5785 - mrr_at_10: 0.4536 - ndcg_at_10: 0.4835 - map_at_10: 0.4536 - precision_at_10: 0.0579 - regularization_loss: 0.0000e+00 - loss_batch: 3.8700\n",
+      "677/677 [==============================] - 159s 235ms/step - loss: 2.0390 - recall_at_20: 0.8298 - mrr_at_20: 0.7342 - ndcg_at_20: 0.7561 - map_at_20: 0.7342 - precision_at_20: 0.0415 - regularization_loss: 0.0000e+00 - loss_batch: 2.0462\n",
       "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.0672 - recall_at_10: 0.6808 - mrr_at_10: 0.5664 - ndcg_at_10: 0.5939 - map_at_10: 0.5664 - precision_at_10: 0.0681 - regularization_loss: 0.0000e+00 - loss_batch: 3.0720\n",
+      "677/677 [==============================] - 160s 235ms/step - loss: 1.5995 - recall_at_20: 0.8662 - mrr_at_20: 0.7825 - ndcg_at_20: 0.8016 - map_at_20: 0.7825 - precision_at_20: 0.0433 - regularization_loss: 0.0000e+00 - loss_batch: 1.6068\n",
       "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 2.6008 - recall_at_10: 0.7369 - mrr_at_10: 0.6298 - ndcg_at_10: 0.6556 - map_at_10: 0.6298 - precision_at_10: 0.0737 - regularization_loss: 0.0000e+00 - loss_batch: 2.6062\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.7419 - recall_at_10: 0.1679 - mrr_at_10: 0.0639 - ndcg_at_10: 0.0881 - map_at_10: 0.0639 - precision_at_10: 0.0168 - regularization_loss: 0.0000e+00 - loss_batch: 8.7705\n"
+      "677/677 [==============================] - 160s 236ms/step - loss: 1.3356 - recall_at_20: 0.8955 - mrr_at_20: 0.8085 - ndcg_at_20: 0.8284 - map_at_20: 0.8085 - precision_at_20: 0.0448 - regularization_loss: 0.0000e+00 - loss_batch: 1.3422\n",
+      "84/84 [==============================] - 13s 89ms/step - loss: 8.9283 - recall_at_20: 0.3217 - mrr_at_20: 0.1205 - ndcg_at_20: 0.1651 - map_at_20: 0.1205 - precision_at_20: 0.0161 - regularization_loss: 0.0000e+00 - loss_batch: 8.9661\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.741933822631836,\n",
-       " 'recall_at_10': 0.16701146960258484,\n",
-       " 'mrr_at_10': 0.06411589682102203,\n",
-       " 'ndcg_at_10': 0.08810190856456757,\n",
-       " 'map_at_10': 0.06411589682102203,\n",
-       " 'precision_at_10': 0.016701148822903633,\n",
+       "{'loss': 8.928336143493652,\n",
+       " 'recall_at_20': 0.32508933544158936,\n",
+       " 'mrr_at_20': 0.11867032200098038,\n",
+       " 'ndcg_at_20': 0.16441309452056885,\n",
+       " 'map_at_20': 0.11867032200098038,\n",
+       " 'precision_at_20': 0.016254469752311707,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.003721237182617}"
+       " 'loss_batch': 10.598859786987305}"
       ]
      },
-     "execution_count": 6,
+     "execution_count": 11,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -267,6 +246,47 @@
     ")"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "117174c6",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Model: \"model_5\"\n",
+      "_________________________________________________________________\n",
+      " Layer (type)                Output Shape              Param #   \n",
+      "=================================================================\n",
+      " sequential_block_29 (Sequen  multiple                 176252608 \n",
+      " tialBlock)                                                      \n",
+      "                                                                 \n",
+      " sequential_block_30 (Sequen  multiple                 86464     \n",
+      " tialBlock)                                                      \n",
+      "                                                                 \n",
+      " sess_pid_seq/categorical_ou  multiple                 175110449 \n",
+      " tput (CategoricalOutput)                                        \n",
+      "                                                                 \n",
+      " model_context_5 (ModelConte  multiple                 0         \n",
+      " xt)                                                             \n",
+      "                                                                 \n",
+      " prepare_features_11 (Prepar  multiple                 0         \n",
+      " eFeatures)                                                      \n",
+      "                                                                 \n",
+      "=================================================================\n",
+      "Total params: 176,729,074\n",
+      "Trainable params: 176,729,073\n",
+      "Non-trainable params: 1\n",
+      "_________________________________________________________________\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_transformer.summary()"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "a070554f",
@@ -310,29 +330,29 @@
      "output_type": "stream",
      "text": [
       "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 9.0406 - recall_at_10: 0.0356 - mrr_at_10: 0.0130 - ndcg_at_10: 0.0183 - map_at_10: 0.0130 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.0326\n",
+      "677/677 [==============================] - 105s 146ms/step - loss: 7.2092 - recall_at_20: 0.1524 - mrr_at_20: 0.0873 - ndcg_at_20: 0.1018 - map_at_20: 0.0873 - precision_at_20: 0.0076 - regularization_loss: 0.0000e+00 - loss_batch: 7.2024\n",
       "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.0845 - recall_at_10: 0.2649 - mrr_at_10: 0.1565 - ndcg_at_10: 0.1821 - map_at_10: 0.1565 - precision_at_10: 0.0265 - regularization_loss: 0.0000e+00 - loss_batch: 6.0807\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 2.8315 - recall_at_20: 0.7410 - mrr_at_20: 0.6393 - ndcg_at_20: 0.6625 - map_at_20: 0.6393 - precision_at_20: 0.0370 - regularization_loss: 0.0000e+00 - loss_batch: 2.8376\n",
       "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 4.2293 - recall_at_10: 0.5184 - mrr_at_10: 0.3883 - ndcg_at_10: 0.4194 - map_at_10: 0.3883 - precision_at_10: 0.0518 - regularization_loss: 0.0000e+00 - loss_batch: 4.2323\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.9715 - recall_at_20: 0.8361 - mrr_at_20: 0.7449 - ndcg_at_20: 0.7658 - map_at_20: 0.7449 - precision_at_20: 0.0418 - regularization_loss: 0.0000e+00 - loss_batch: 1.9781\n",
       "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.3441 - recall_at_10: 0.6468 - mrr_at_10: 0.5229 - ndcg_at_10: 0.5526 - map_at_10: 0.5229 - precision_at_10: 0.0647 - regularization_loss: 0.0000e+00 - loss_batch: 3.3486\n",
+      "677/677 [==============================] - 100s 148ms/step - loss: 1.5735 - recall_at_20: 0.8706 - mrr_at_20: 0.7848 - ndcg_at_20: 0.8044 - map_at_20: 0.7848 - precision_at_20: 0.0435 - regularization_loss: 0.0000e+00 - loss_batch: 1.5798\n",
       "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 2.8789 - recall_at_10: 0.7051 - mrr_at_10: 0.5871 - ndcg_at_10: 0.6155 - map_at_10: 0.5871 - precision_at_10: 0.0705 - regularization_loss: 0.0000e+00 - loss_batch: 2.8854\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.8279 - recall_at_10: 0.1584 - mrr_at_10: 0.0624 - ndcg_at_10: 0.0847 - map_at_10: 0.0624 - precision_at_10: 0.0158 - regularization_loss: 0.0000e+00 - loss_batch: 8.8674\n"
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.3392 - recall_at_20: 0.8979 - mrr_at_20: 0.8098 - ndcg_at_20: 0.8299 - map_at_20: 0.8098 - precision_at_20: 0.0449 - regularization_loss: 0.0000e+00 - loss_batch: 1.3459\n",
+      "84/84 [==============================] - 8s 44ms/step - loss: 8.8929 - recall_at_20: 0.3268 - mrr_at_20: 0.1240 - ndcg_at_20: 0.1687 - map_at_20: 0.1240 - precision_at_20: 0.0163 - regularization_loss: 0.0000e+00 - loss_batch: 8.9432\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.827858924865723,\n",
-       " 'recall_at_10': 0.15591499209403992,\n",
-       " 'mrr_at_10': 0.06090494617819786,\n",
-       " 'ndcg_at_10': 0.08297329396009445,\n",
-       " 'map_at_10': 0.06090494617819786,\n",
-       " 'precision_at_10': 0.01559150218963623,\n",
+       "{'loss': 8.892891883850098,\n",
+       " 'recall_at_20': 0.3253714442253113,\n",
+       " 'mrr_at_20': 0.11890144646167755,\n",
+       " 'ndcg_at_20': 0.16443441808223724,\n",
+       " 'map_at_20': 0.11890144646167755,\n",
+       " 'precision_at_20': 0.016268571838736534,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.57563304901123}"
+       " 'loss_batch': 11.120135307312012}"
       ]
      },
      "execution_count": 7,
@@ -393,29 +413,29 @@
      "output_type": "stream",
      "text": [
       "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 8.9635 - recall_at_10: 0.0396 - mrr_at_10: 0.0146 - ndcg_at_10: 0.0204 - map_at_10: 0.0146 - precision_at_10: 0.0040 - regularization_loss: 0.0000e+00 - loss_batch: 8.9589\n",
+      "677/677 [==============================] - 105s 146ms/step - loss: 7.7130 - recall_at_20: 0.1178 - mrr_at_20: 0.0575 - ndcg_at_20: 0.0708 - map_at_20: 0.0575 - precision_at_20: 0.0059 - regularization_loss: 0.0000e+00 - loss_batch: 7.7064\n",
       "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.2358 - recall_at_10: 0.2417 - mrr_at_10: 0.1391 - ndcg_at_10: 0.1633 - map_at_10: 0.1391 - precision_at_10: 0.0242 - regularization_loss: 0.0000e+00 - loss_batch: 6.2350\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 2.9553 - recall_at_20: 0.7234 - mrr_at_20: 0.6112 - ndcg_at_20: 0.6369 - map_at_20: 0.6112 - precision_at_20: 0.0362 - regularization_loss: 0.0000e+00 - loss_batch: 2.9622\n",
       "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 4.4725 - recall_at_10: 0.4996 - mrr_at_10: 0.3675 - ndcg_at_10: 0.3991 - map_at_10: 0.3675 - precision_at_10: 0.0500 - regularization_loss: 0.0000e+00 - loss_batch: 4.4748\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.9463 - recall_at_20: 0.8379 - mrr_at_20: 0.7465 - ndcg_at_20: 0.7675 - map_at_20: 0.7465 - precision_at_20: 0.0419 - regularization_loss: 0.0000e+00 - loss_batch: 1.9539\n",
       "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.6489 - recall_at_10: 0.6128 - mrr_at_10: 0.4839 - ndcg_at_10: 0.5148 - map_at_10: 0.4839 - precision_at_10: 0.0613 - regularization_loss: 0.0000e+00 - loss_batch: 3.6543\n",
+      "677/677 [==============================] - 100s 148ms/step - loss: 1.5422 - recall_at_20: 0.8713 - mrr_at_20: 0.7875 - ndcg_at_20: 0.8066 - map_at_20: 0.7875 - precision_at_20: 0.0436 - regularization_loss: 0.0000e+00 - loss_batch: 1.5490\n",
       "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.2122 - recall_at_10: 0.6626 - mrr_at_10: 0.5353 - ndcg_at_10: 0.5659 - map_at_10: 0.5353 - precision_at_10: 0.0663 - regularization_loss: 0.0000e+00 - loss_batch: 3.2164\n",
-      "84/84 [==============================] - 7s 39ms/step - loss: 8.8321 - recall_at_10: 0.1434 - mrr_at_10: 0.0582 - ndcg_at_10: 0.0781 - map_at_10: 0.0582 - precision_at_10: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 8.8607\n"
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.3310 - recall_at_20: 0.8989 - mrr_at_20: 0.8116 - ndcg_at_20: 0.8315 - map_at_20: 0.8116 - precision_at_20: 0.0449 - regularization_loss: 0.0000e+00 - loss_batch: 1.3377\n",
+      "84/84 [==============================] - 7s 43ms/step - loss: 8.8519 - recall_at_20: 0.3266 - mrr_at_20: 0.1215 - ndcg_at_20: 0.1670 - map_at_20: 0.1215 - precision_at_20: 0.0163 - regularization_loss: 0.0000e+00 - loss_batch: 8.8791\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.832069396972656,\n",
-       " 'recall_at_10': 0.1426556259393692,\n",
-       " 'mrr_at_10': 0.05639006569981575,\n",
-       " 'ndcg_at_10': 0.07650619745254517,\n",
-       " 'map_at_10': 0.05639006569981575,\n",
-       " 'precision_at_10': 0.01426556333899498,\n",
+       "{'loss': 8.851947784423828,\n",
+       " 'recall_at_20': 0.3281925916671753,\n",
+       " 'mrr_at_20': 0.11986491084098816,\n",
+       " 'ndcg_at_20': 0.16598893702030182,\n",
+       " 'map_at_20': 0.11986491084098816,\n",
+       " 'precision_at_20': 0.016409626230597496,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.100401878356934}"
+       " 'loss_batch': 10.054880142211914}"
       ]
      },
      "execution_count": 8,
@@ -476,29 +496,29 @@
      "output_type": "stream",
      "text": [
       "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 9.0739 - recall_at_10: 0.0361 - mrr_at_10: 0.0125 - ndcg_at_10: 0.0180 - map_at_10: 0.0125 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.0756\n",
+      "677/677 [==============================] - 105s 146ms/step - loss: 7.6534 - recall_at_20: 0.1225 - mrr_at_20: 0.0618 - ndcg_at_20: 0.0752 - map_at_20: 0.0618 - precision_at_20: 0.0061 - regularization_loss: 0.0000e+00 - loss_batch: 7.6446\n",
       "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.4023 - recall_at_10: 0.2372 - mrr_at_10: 0.1349 - ndcg_at_10: 0.1591 - map_at_10: 0.1349 - precision_at_10: 0.0237 - regularization_loss: 0.0000e+00 - loss_batch: 6.4020\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 2.9167 - recall_at_20: 0.7304 - mrr_at_20: 0.6236 - ndcg_at_20: 0.6481 - map_at_20: 0.6236 - precision_at_20: 0.0365 - regularization_loss: 0.0000e+00 - loss_batch: 2.9215\n",
       "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 4.7934 - recall_at_10: 0.4544 - mrr_at_10: 0.3194 - ndcg_at_10: 0.3516 - map_at_10: 0.3194 - precision_at_10: 0.0454 - regularization_loss: 0.0000e+00 - loss_batch: 4.7958\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.9719 - recall_at_20: 0.8351 - mrr_at_20: 0.7428 - ndcg_at_20: 0.7639 - map_at_20: 0.7428 - precision_at_20: 0.0418 - regularization_loss: 0.0000e+00 - loss_batch: 1.9820\n",
       "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.7131 - recall_at_10: 0.5913 - mrr_at_10: 0.4595 - ndcg_at_10: 0.4911 - map_at_10: 0.4595 - precision_at_10: 0.0591 - regularization_loss: 0.0000e+00 - loss_batch: 3.7160\n",
+      "677/677 [==============================] - 100s 148ms/step - loss: 1.5807 - recall_at_20: 0.8694 - mrr_at_20: 0.7840 - ndcg_at_20: 0.8035 - map_at_20: 0.7840 - precision_at_20: 0.0435 - regularization_loss: 0.0000e+00 - loss_batch: 1.5877\n",
       "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.0900 - recall_at_10: 0.6752 - mrr_at_10: 0.5537 - ndcg_at_10: 0.5829 - map_at_10: 0.5537 - precision_at_10: 0.0675 - regularization_loss: 0.0000e+00 - loss_batch: 3.0945\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.9225 - recall_at_10: 0.1426 - mrr_at_10: 0.0581 - ndcg_at_10: 0.0778 - map_at_10: 0.0581 - precision_at_10: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 8.9683\n"
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.3320 - recall_at_20: 0.8979 - mrr_at_20: 0.8110 - ndcg_at_20: 0.8308 - map_at_20: 0.8110 - precision_at_20: 0.0449 - regularization_loss: 0.0000e+00 - loss_batch: 1.3375\n",
+      "84/84 [==============================] - 7s 44ms/step - loss: 8.9484 - recall_at_20: 0.3267 - mrr_at_20: 0.1212 - ndcg_at_20: 0.1669 - map_at_20: 0.1212 - precision_at_20: 0.0163 - regularization_loss: 0.0000e+00 - loss_batch: 8.9818\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.922541618347168,\n",
-       " 'recall_at_10': 0.14425428211688995,\n",
-       " 'mrr_at_10': 0.057682257145643234,\n",
-       " 'ndcg_at_10': 0.077837273478508,\n",
-       " 'map_at_10': 0.057682257145643234,\n",
-       " 'precision_at_10': 0.014425428584218025,\n",
+       "{'loss': 8.948363304138184,\n",
+       " 'recall_at_20': 0.3253714442253113,\n",
+       " 'mrr_at_20': 0.11741983145475388,\n",
+       " 'ndcg_at_20': 0.16352491080760956,\n",
+       " 'map_at_20': 0.11741983145475388,\n",
+       " 'precision_at_20': 0.016268571838736534,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.947548866271973}"
+       " 'loss_batch': 10.429142951965332}"
       ]
      },
      "execution_count": 9,
@@ -559,29 +579,29 @@
      "output_type": "stream",
      "text": [
       "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 9.0454 - recall_at_10: 0.0381 - mrr_at_10: 0.0139 - ndcg_at_10: 0.0195 - map_at_10: 0.0139 - precision_at_10: 0.0038 - regularization_loss: 0.0000e+00 - loss_batch: 9.0386\n",
+      "677/677 [==============================] - 105s 147ms/step - loss: 7.2975 - recall_at_20: 0.1426 - mrr_at_20: 0.0798 - ndcg_at_20: 0.0937 - map_at_20: 0.0798 - precision_at_20: 0.0071 - regularization_loss: 0.0000e+00 - loss_batch: 7.2845\n",
       "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.3489 - recall_at_10: 0.2430 - mrr_at_10: 0.1385 - ndcg_at_10: 0.1632 - map_at_10: 0.1385 - precision_at_10: 0.0243 - regularization_loss: 0.0000e+00 - loss_batch: 6.3435\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 2.8422 - recall_at_20: 0.7408 - mrr_at_20: 0.6384 - ndcg_at_20: 0.6618 - map_at_20: 0.6384 - precision_at_20: 0.0370 - regularization_loss: 0.0000e+00 - loss_batch: 2.8481\n",
       "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 4.7853 - recall_at_10: 0.4602 - mrr_at_10: 0.3227 - ndcg_at_10: 0.3555 - map_at_10: 0.3227 - precision_at_10: 0.0460 - regularization_loss: 0.0000e+00 - loss_batch: 4.7868\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.9844 - recall_at_20: 0.8348 - mrr_at_20: 0.7417 - ndcg_at_20: 0.7630 - map_at_20: 0.7417 - precision_at_20: 0.0417 - regularization_loss: 0.0000e+00 - loss_batch: 1.9915\n",
       "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.6873 - recall_at_10: 0.6026 - mrr_at_10: 0.4710 - ndcg_at_10: 0.5025 - map_at_10: 0.4710 - precision_at_10: 0.0603 - regularization_loss: 0.0000e+00 - loss_batch: 3.6936\n",
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.5814 - recall_at_20: 0.8700 - mrr_at_20: 0.7848 - ndcg_at_20: 0.8043 - map_at_20: 0.7848 - precision_at_20: 0.0435 - regularization_loss: 0.0000e+00 - loss_batch: 1.5882\n",
       "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.0298 - recall_at_10: 0.6856 - mrr_at_10: 0.5650 - ndcg_at_10: 0.5940 - map_at_10: 0.5650 - precision_at_10: 0.0686 - regularization_loss: 0.0000e+00 - loss_batch: 3.0363\n",
-      "84/84 [==============================] - 8s 40ms/step - loss: 8.6711 - recall_at_10: 0.1505 - mrr_at_10: 0.0595 - ndcg_at_10: 0.0807 - map_at_10: 0.0595 - precision_at_10: 0.0151 - regularization_loss: 0.0000e+00 - loss_batch: 8.6999\n"
+      "677/677 [==============================] - 100s 147ms/step - loss: 1.3337 - recall_at_20: 0.8990 - mrr_at_20: 0.8101 - ndcg_at_20: 0.8304 - map_at_20: 0.8101 - precision_at_20: 0.0450 - regularization_loss: 0.0000e+00 - loss_batch: 1.3407\n",
+      "84/84 [==============================] - 8s 44ms/step - loss: 8.8888 - recall_at_20: 0.3240 - mrr_at_20: 0.1225 - ndcg_at_20: 0.1671 - map_at_20: 0.1225 - precision_at_20: 0.0162 - regularization_loss: 0.0000e+00 - loss_batch: 8.9304\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "{'loss': 8.671070098876953,\n",
-       " 'recall_at_10': 0.15074290335178375,\n",
-       " 'mrr_at_10': 0.05898994952440262,\n",
-       " 'ndcg_at_10': 0.08035662025213242,\n",
-       " 'map_at_10': 0.05898994952440262,\n",
-       " 'precision_at_10': 0.015074292197823524,\n",
+       "{'loss': 8.888774871826172,\n",
+       " 'recall_at_20': 0.3228324353694916,\n",
+       " 'mrr_at_20': 0.11914832890033722,\n",
+       " 'ndcg_at_20': 0.16426056623458862,\n",
+       " 'map_at_20': 0.11914832890033722,\n",
+       " 'precision_at_20': 0.01614162139594555,\n",
        " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.946744918823242}"
+       " 'loss_batch': 10.727699279785156}"
       ]
      },
      "execution_count": 10,
diff --git a/T4Rec_repro/train_runs/mlm_item_id.ipynb b/T4Rec_repro/train_runs/mlm_item_id.ipynb
new file mode 100644
index 0000000000..508b4d6aa5
--- /dev/null
+++ b/T4Rec_repro/train_runs/mlm_item_id.ipynb
@@ -0,0 +1,808 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:26:22.114565: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-13 20:26:24.538242: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:24.538645: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:24.538803: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-13 20:26:24.965689: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-13 20:26:24.966631: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:24.966839: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:24.966994: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:25.703328: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:25.703539: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:25.703699: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 20:26:25.703813: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-13 20:26:25.703876: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 5\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        '../',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "\n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "78302207",
+   "metadata": {},
+   "source": [
+    "# Run 1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "e7474131",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_5/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_5/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-14 06:41:41.374760: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 164s 230ms/step - loss: 9.4924 - recall_at_20: 0.0704 - mrr_at_20: 0.0174 - ndcg_at_20: 0.0288 - map_at_20: 0.0174 - precision_at_20: 0.0035 - regularization_loss: 0.0000e+00 - loss_batch: 9.4899\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 159s 234ms/step - loss: 8.0755 - recall_at_20: 0.1759 - mrr_at_20: 0.0480 - ndcg_at_20: 0.0758 - map_at_20: 0.0480 - precision_at_20: 0.0088 - regularization_loss: 0.0000e+00 - loss_batch: 8.0726\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 159s 235ms/step - loss: 7.3926 - recall_at_20: 0.2427 - mrr_at_20: 0.0671 - ndcg_at_20: 0.1053 - map_at_20: 0.0671 - precision_at_20: 0.0121 - regularization_loss: 0.0000e+00 - loss_batch: 7.3887\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 159s 235ms/step - loss: 6.9299 - recall_at_20: 0.2932 - mrr_at_20: 0.0821 - ndcg_at_20: 0.1281 - map_at_20: 0.0821 - precision_at_20: 0.0147 - regularization_loss: 0.0000e+00 - loss_batch: 6.9255\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 143s 211ms/step - loss: 6.5825 - recall_at_20: 0.3350 - mrr_at_20: 0.0951 - ndcg_at_20: 0.1476 - map_at_20: 0.0951 - precision_at_20: 0.0167 - regularization_loss: 0.0000e+00 - loss_batch: 6.5791\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-14 06:54:43.265476: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_5/sequential_block_29/xl_net_block_5/sequential_block_32/replace_masked_embeddings_5/RaggedWhere/Assert/AssertGuard/branch_executed/_529\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 9s 49ms/step - loss: 8.3507 - recall_at_20: 0.2332 - mrr_at_20: 0.0720 - ndcg_at_20: 0.1070 - map_at_20: 0.0720 - precision_at_20: 0.0117 - regularization_loss: 0.0000e+00 - loss_batch: 8.3848\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.350717544555664,\n",
+       " 'recall_at_20': 0.23180365562438965,\n",
+       " 'mrr_at_20': 0.06943727284669876,\n",
+       " 'ndcg_at_20': 0.10483581572771072,\n",
+       " 'map_at_20': 0.06943727284669876,\n",
+       " 'precision_at_20': 0.011590182781219482,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.85844612121582}"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "02b2e706",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Model: \"model_5\"\n",
+      "_________________________________________________________________\n",
+      " Layer (type)                Output Shape              Param #   \n",
+      "=================================================================\n",
+      " sequential_block_29 (Sequen  multiple                 176252800 \n",
+      " tialBlock)                                                      \n",
+      "                                                                 \n",
+      " sequential_block_30 (Sequen  multiple                 86464     \n",
+      " tialBlock)                                                      \n",
+      "                                                                 \n",
+      " sess_pid_seq/categorical_ou  multiple                 175110449 \n",
+      " tput (CategoricalOutput)                                        \n",
+      "                                                                 \n",
+      " model_context_5 (ModelConte  multiple                 0         \n",
+      " xt)                                                             \n",
+      "                                                                 \n",
+      " prepare_features_11 (Prepar  multiple                 0         \n",
+      " eFeatures)                                                      \n",
+      "                                                                 \n",
+      "=================================================================\n",
+      "Total params: 176,729,266\n",
+      "Trainable params: 176,729,265\n",
+      "Non-trainable params: 1\n",
+      "_________________________________________________________________\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_transformer.summary()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "3513d28a",
+   "metadata": {},
+   "source": [
+    "# Run 2"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "2e624551",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:31:46.363004: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 65s 84ms/step - loss: 9.4953 - recall_at_20: 0.0663 - mrr_at_20: 0.0167 - ndcg_at_20: 0.0274 - map_at_20: 0.0167 - precision_at_20: 0.0033 - regularization_loss: 0.0000e+00 - loss_batch: 9.4908\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 8.1077 - recall_at_20: 0.1712 - mrr_at_20: 0.0474 - ndcg_at_20: 0.0744 - map_at_20: 0.0474 - precision_at_20: 0.0086 - regularization_loss: 0.0000e+00 - loss_batch: 8.1021\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 7.3969 - recall_at_20: 0.2444 - mrr_at_20: 0.0671 - ndcg_at_20: 0.1057 - map_at_20: 0.0671 - precision_at_20: 0.0122 - regularization_loss: 0.0000e+00 - loss_batch: 7.3975\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 6.9683 - recall_at_20: 0.2853 - mrr_at_20: 0.0794 - ndcg_at_20: 0.1243 - map_at_20: 0.0794 - precision_at_20: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 6.9657\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.6522 - recall_at_20: 0.3234 - mrr_at_20: 0.0917 - ndcg_at_20: 0.1423 - map_at_20: 0.0917 - precision_at_20: 0.0162 - regularization_loss: 0.0000e+00 - loss_batch: 6.6482\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:36:37.576034: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_1/sequential_block_9/xl_net_block_1/sequential_block_12/replace_masked_embeddings_1/RaggedWhere/Assert/AssertGuard/branch_executed/_529\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 9s 48ms/step - loss: 8.3509 - recall_at_20: 0.2300 - mrr_at_20: 0.0691 - ndcg_at_20: 0.1041 - map_at_20: 0.0691 - precision_at_20: 0.0115 - regularization_loss: 0.0000e+00 - loss_batch: 8.3545\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.350946426391602,\n",
+       " 'recall_at_20': 0.22926461696624756,\n",
+       " 'mrr_at_20': 0.06758848577737808,\n",
+       " 'ndcg_at_20': 0.10286629945039749,\n",
+       " 'map_at_20': 0.06758848577737808,\n",
+       " 'precision_at_20': 0.011463231407105923,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 8.509391784667969}"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d42dea65",
+   "metadata": {},
+   "source": [
+    "# Run 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "97e7322c",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:36:51.268625: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 65s 84ms/step - loss: 9.4386 - recall_at_20: 0.0722 - mrr_at_20: 0.0190 - ndcg_at_20: 0.0305 - map_at_20: 0.0190 - precision_at_20: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.4342\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 8.0171 - recall_at_20: 0.1837 - mrr_at_20: 0.0502 - ndcg_at_20: 0.0792 - map_at_20: 0.0502 - precision_at_20: 0.0092 - regularization_loss: 0.0000e+00 - loss_batch: 8.0103\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 58s 85ms/step - loss: 7.3722 - recall_at_20: 0.2467 - mrr_at_20: 0.0691 - ndcg_at_20: 0.1078 - map_at_20: 0.0691 - precision_at_20: 0.0123 - regularization_loss: 0.0000e+00 - loss_batch: 7.3658\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.9592 - recall_at_20: 0.2892 - mrr_at_20: 0.0807 - ndcg_at_20: 0.1262 - map_at_20: 0.0807 - precision_at_20: 0.0145 - regularization_loss: 0.0000e+00 - loss_batch: 6.9549\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.6706 - recall_at_20: 0.3194 - mrr_at_20: 0.0899 - ndcg_at_20: 0.1401 - map_at_20: 0.0899 - precision_at_20: 0.0160 - regularization_loss: 0.0000e+00 - loss_batch: 6.6659\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:41:42.865959: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_2/sequential_block_14/xl_net_block_2/sequential_block_17/replace_masked_embeddings_2/RaggedWhere/Assert/AssertGuard/branch_executed/_529\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 9s 49ms/step - loss: 8.3114 - recall_at_20: 0.2264 - mrr_at_20: 0.0687 - ndcg_at_20: 0.1030 - map_at_20: 0.0687 - precision_at_20: 0.0113 - regularization_loss: 0.0000e+00 - loss_batch: 8.3190\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.311356544494629,\n",
+       " 'recall_at_20': 0.22738386690616608,\n",
+       " 'mrr_at_20': 0.0663006603717804,\n",
+       " 'ndcg_at_20': 0.10139463096857071,\n",
+       " 'map_at_20': 0.0663006603717804,\n",
+       " 'precision_at_20': 0.011369192972779274,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 8.649133682250977}"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "610da911",
+   "metadata": {},
+   "source": [
+    "# Run 4"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "9e0f0891",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:41:56.776497: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 65s 84ms/step - loss: 9.4786 - recall_at_20: 0.0673 - mrr_at_20: 0.0176 - ndcg_at_20: 0.0283 - map_at_20: 0.0176 - precision_at_20: 0.0034 - regularization_loss: 0.0000e+00 - loss_batch: 9.4794\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 8.1173 - recall_at_20: 0.1692 - mrr_at_20: 0.0454 - ndcg_at_20: 0.0723 - map_at_20: 0.0454 - precision_at_20: 0.0085 - regularization_loss: 0.0000e+00 - loss_batch: 8.1128\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 7.4296 - recall_at_20: 0.2409 - mrr_at_20: 0.0664 - ndcg_at_20: 0.1044 - map_at_20: 0.0664 - precision_at_20: 0.0120 - regularization_loss: 0.0000e+00 - loss_batch: 7.4268\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 58s 85ms/step - loss: 6.9533 - recall_at_20: 0.2861 - mrr_at_20: 0.0778 - ndcg_at_20: 0.1232 - map_at_20: 0.0778 - precision_at_20: 0.0143 - regularization_loss: 0.0000e+00 - loss_batch: 6.9502\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.6322 - recall_at_20: 0.3285 - mrr_at_20: 0.0931 - ndcg_at_20: 0.1445 - map_at_20: 0.0931 - precision_at_20: 0.0164 - regularization_loss: 0.0000e+00 - loss_batch: 6.6306\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:46:48.752036: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_3/sequential_block_19/xl_net_block_3/sequential_block_22/replace_masked_embeddings_3/RaggedWhere/Assert/AssertGuard/branch_executed/_529\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 9s 49ms/step - loss: 8.3535 - recall_at_20: 0.2280 - mrr_at_20: 0.0700 - ndcg_at_20: 0.1046 - map_at_20: 0.0700 - precision_at_20: 0.0114 - regularization_loss: 0.0000e+00 - loss_batch: 8.3763\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.353541374206543,\n",
+       " 'recall_at_20': 0.23067519068717957,\n",
+       " 'mrr_at_20': 0.06726308912038803,\n",
+       " 'ndcg_at_20': 0.10282379388809204,\n",
+       " 'map_at_20': 0.06726308912038803,\n",
+       " 'precision_at_20': 0.011533760465681553,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.360955238342285}"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6cffc60d",
+   "metadata": {},
+   "source": [
+    "# Run 5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "6981ff6e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 1/5\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/Reshape_3:0\", shape=(None,), dtype=int64), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/Reshape_2:0\", shape=(None, None), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/RaggedTile_2/Reshape_3:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/RaggedTile_2/Reshape_2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/RaggedTile_2/Cast:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:47:02.588234: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/Assert/AssertGuard/branch_executed/_31\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 65s 84ms/step - loss: 9.4909 - recall_at_20: 0.0707 - mrr_at_20: 0.0184 - ndcg_at_20: 0.0297 - map_at_20: 0.0184 - precision_at_20: 0.0035 - regularization_loss: 0.0000e+00 - loss_batch: 9.4882\n",
+      "Epoch 2/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 8.1387 - recall_at_20: 0.1653 - mrr_at_20: 0.0453 - ndcg_at_20: 0.0713 - map_at_20: 0.0453 - precision_at_20: 0.0083 - regularization_loss: 0.0000e+00 - loss_batch: 8.1347\n",
+      "Epoch 3/5\n",
+      "677/677 [==============================] - 57s 84ms/step - loss: 7.4398 - recall_at_20: 0.2387 - mrr_at_20: 0.0662 - ndcg_at_20: 0.1038 - map_at_20: 0.0662 - precision_at_20: 0.0119 - regularization_loss: 0.0000e+00 - loss_batch: 7.4371\n",
+      "Epoch 4/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.9831 - recall_at_20: 0.2878 - mrr_at_20: 0.0810 - ndcg_at_20: 0.1261 - map_at_20: 0.0810 - precision_at_20: 0.0144 - regularization_loss: 0.0000e+00 - loss_batch: 6.9787\n",
+      "Epoch 5/5\n",
+      "677/677 [==============================] - 57s 85ms/step - loss: 6.6535 - recall_at_20: 0.3246 - mrr_at_20: 0.0905 - ndcg_at_20: 0.1416 - map_at_20: 0.0905 - precision_at_20: 0.0162 - regularization_loss: 0.0000e+00 - loss_batch: 6.6479\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 20:51:54.265885: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: model_4/sequential_block_24/xl_net_block_4/sequential_block_27/replace_masked_embeddings_4/RaggedWhere/Assert/AssertGuard/branch_executed/_529\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "84/84 [==============================] - 9s 49ms/step - loss: 8.3766 - recall_at_20: 0.2347 - mrr_at_20: 0.0690 - ndcg_at_20: 0.1050 - map_at_20: 0.0690 - precision_at_20: 0.0117 - regularization_loss: 0.0000e+00 - loss_batch: 8.3785\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.376553535461426,\n",
+       " 'recall_at_20': 0.23227383196353912,\n",
+       " 'mrr_at_20': 0.0675581842660904,\n",
+       " 'ndcg_at_20': 0.10343420505523682,\n",
+       " 'map_at_20': 0.0675581842660904,\n",
+       " 'precision_at_20': 0.011613693088293076,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 8.46284294128418}"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequenceMaskRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d195f16d",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/T4Rec_repro/train_runs/mlm_item_id_min.ipynb b/T4Rec_repro/train_runs/mlm_item_id_min.ipynb
deleted file mode 100644
index df90cc786b..0000000000
--- a/T4Rec_repro/train_runs/mlm_item_id_min.ipynb
+++ /dev/null
@@ -1,640 +0,0 @@
-{
- "cells": [
-  {
-   "cell_type": "code",
-   "execution_count": 1,
-   "id": "ceb3ae93",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-03-10 13:57:07.721314: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "2023-03-10 13:57:10.129984: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:10.130437: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:10.130617: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
-      "  from .autonotebook import tqdm as notebook_tqdm\n",
-      "2023-03-10 13:57:10.581209: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-10 13:57:10.582030: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:10.582283: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:10.582439: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:11.330242: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:11.330454: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:11.330615: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-10 13:57:11.330728: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-10 13:57:11.330790: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
-     ]
-    }
-   ],
-   "source": [
-    "import os\n",
-    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
-    "import gc\n",
-    "import numpy as np\n",
-    "\n",
-    "import tensorflow as tf\n",
-    "\n",
-    "from merlin.schema.tags import Tags\n",
-    "from merlin.io.dataset import Dataset\n",
-    "import merlin.models.tf as mm"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 2,
-   "id": "11647dd3",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
-    "valid = Dataset(\"ecom_dataset/0002/valid.parquet\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
-   "id": "4ab4e0fb",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "target = 'sess_pid_seq'"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 4,
-   "id": "8d9903e6",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# a couple of starter hyperparams\n",
-    "\n",
-    "d_model = 192\n",
-    "n_layer = 3\n",
-    "n_head = 16\n",
-    "batch_size = 128\n",
-    "learning_rate = 0.0006667377132554976\n",
-    "n_epoch = 5"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "id": "a6ade14a",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "def get_model():\n",
-    "    mlp_block = mm.MLPBlock(\n",
-    "                    [128,d_model],\n",
-    "                    activation='relu',\n",
-    "                    no_activation_last_layer=True,\n",
-    "                )\n",
-    "\n",
-    "    from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
-    "\n",
-    "    schema = TensorflowMetadata.from_proto_text_file(\n",
-    "        '../',\n",
-    "        file_name='rees46_schema_modified.pbtxt'\n",
-    "    ).to_merlin_schema()\n",
-    "\n",
-    "    train.schema = schema\n",
-    "\n",
-    "    input_block = mm.InputBlockV2(\n",
-    "        train.schema.select_by_name('sess_pid_seq'),    \n",
-    "        embeddings=mm.Embeddings(\n",
-    "            train.schema.select_by_name('sess_pid_seq'), \n",
-    "            sequence_combiner=None,\n",
-    "            dim=d_model\n",
-    "            ),\n",
-    "    #     pre=mm.StochasticSwapNoise()\n",
-    "    )\n",
-    "\n",
-    "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
-    "\n",
-    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
-    "\n",
-    "    dense_block = mm.SequentialBlock(\n",
-    "        input_block,\n",
-    "        mlp_block,\n",
-    "        xlnet_block\n",
-    "    )\n",
-    "\n",
-    "    mlp_block2 = mm.MLPBlock(\n",
-    "                    [128,d_model],\n",
-    "                    activation='relu',\n",
-    "                    no_activation_last_layer=True,\n",
-    "                )\n",
-    "\n",
-    "    prediction_task = mm.CategoricalOutput(\n",
-    "        to_call=input_block[\"categorical\"][target],\n",
-    "    )\n",
-    "\n",
-    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
-    "\n",
-    "    optimizer = tf.keras.optimizers.Adam(\n",
-    "        learning_rate=learning_rate,\n",
-    "    )\n",
-    "\n",
-    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
-    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[10])\n",
-    "                 )\n",
-    "    return model_transformer, xlnet_block"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "78302207",
-   "metadata": {},
-   "source": [
-    "# Run 1"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "id": "e7474131",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch 1/5\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-03-10 13:57:17.631317: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 82s 110ms/step - loss: 8.8265 - recall_at_10: 0.0432 - mrr_at_10: 0.0166 - ndcg_at_10: 0.0228 - map_at_10: 0.0166 - precision_at_10: 0.0043 - regularization_loss: 0.0000e+00 - loss_batch: 8.8191\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 5.8014 - recall_at_10: 0.3091 - mrr_at_10: 0.1936 - ndcg_at_10: 0.2210 - map_at_10: 0.1936 - precision_at_10: 0.0309 - regularization_loss: 0.0000e+00 - loss_batch: 5.8019\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 4.1718 - recall_at_10: 0.5397 - mrr_at_10: 0.4080 - ndcg_at_10: 0.4394 - map_at_10: 0.4080 - precision_at_10: 0.0540 - regularization_loss: 0.0000e+00 - loss_batch: 4.1734\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.2806 - recall_at_10: 0.6585 - mrr_at_10: 0.5362 - ndcg_at_10: 0.5656 - map_at_10: 0.5362 - precision_at_10: 0.0658 - regularization_loss: 0.0000e+00 - loss_batch: 3.2849\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 2.8188 - recall_at_10: 0.7125 - mrr_at_10: 0.6007 - ndcg_at_10: 0.6276 - map_at_10: 0.6007 - precision_at_10: 0.0712 - regularization_loss: 0.0000e+00 - loss_batch: 2.8246\n",
-      "84/84 [==============================] - 7s 39ms/step - loss: 8.8107 - recall_at_10: 0.1511 - mrr_at_10: 0.0623 - ndcg_at_10: 0.0829 - map_at_10: 0.0623 - precision_at_10: 0.0151 - regularization_loss: 0.0000e+00 - loss_batch: 8.8298\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.810694694519043,\n",
-       " 'recall_at_10': 0.15318788588047028,\n",
-       " 'mrr_at_10': 0.06131112948060036,\n",
-       " 'ndcg_at_10': 0.08268804848194122,\n",
-       " 'map_at_10': 0.06131112948060036,\n",
-       " 'precision_at_10': 0.015318789519369602,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.6568603515625}"
-      ]
-     },
-     "execution_count": 6,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "3513d28a",
-   "metadata": {},
-   "source": [
-    "# Run 2"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "id": "2e624551",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch 1/5\n",
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_1/sequential_block_9/xl_net_block_1/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 9.1281 - recall_at_10: 0.0359 - mrr_at_10: 0.0128 - ndcg_at_10: 0.0181 - map_at_10: 0.0128 - precision_at_10: 0.0036 - regularization_loss: 0.0000e+00 - loss_batch: 9.1243\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.7038 - recall_at_10: 0.1907 - mrr_at_10: 0.1006 - ndcg_at_10: 0.1218 - map_at_10: 0.1006 - precision_at_10: 0.0191 - regularization_loss: 0.0000e+00 - loss_batch: 6.6971\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 4.9471 - recall_at_10: 0.4404 - mrr_at_10: 0.3077 - ndcg_at_10: 0.3393 - map_at_10: 0.3077 - precision_at_10: 0.0440 - regularization_loss: 0.0000e+00 - loss_batch: 4.9478\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.9842 - recall_at_10: 0.5607 - mrr_at_10: 0.4197 - ndcg_at_10: 0.4534 - map_at_10: 0.4197 - precision_at_10: 0.0561 - regularization_loss: 0.0000e+00 - loss_batch: 3.9878\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.3262 - recall_at_10: 0.6442 - mrr_at_10: 0.5172 - ndcg_at_10: 0.5477 - map_at_10: 0.5172 - precision_at_10: 0.0644 - regularization_loss: 0.0000e+00 - loss_batch: 3.3307\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.9716 - recall_at_10: 0.1277 - mrr_at_10: 0.0513 - ndcg_at_10: 0.0692 - map_at_10: 0.0513 - precision_at_10: 0.0128 - regularization_loss: 0.0000e+00 - loss_batch: 8.9960\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.971626281738281,\n",
-       " 'recall_at_10': 0.12817378342151642,\n",
-       " 'mrr_at_10': 0.05082216113805771,\n",
-       " 'ndcg_at_10': 0.06883765012025833,\n",
-       " 'map_at_10': 0.05082216113805771,\n",
-       " 'precision_at_10': 0.012817380018532276,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.049013137817383}"
-      ]
-     },
-     "execution_count": 7,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "d42dea65",
-   "metadata": {},
-   "source": [
-    "# Run 3"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 8,
-   "id": "97e7322c",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch 1/5\n",
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_14/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 8.9307 - recall_at_10: 0.0396 - mrr_at_10: 0.0142 - ndcg_at_10: 0.0201 - map_at_10: 0.0142 - precision_at_10: 0.0040 - regularization_loss: 0.0000e+00 - loss_batch: 8.9265\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 5.9376 - recall_at_10: 0.2951 - mrr_at_10: 0.1842 - ndcg_at_10: 0.2105 - map_at_10: 0.1842 - precision_at_10: 0.0295 - regularization_loss: 0.0000e+00 - loss_batch: 5.9350\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 4.3616 - recall_at_10: 0.5184 - mrr_at_10: 0.3844 - ndcg_at_10: 0.4164 - map_at_10: 0.3844 - precision_at_10: 0.0518 - regularization_loss: 0.0000e+00 - loss_batch: 4.3657\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.4916 - recall_at_10: 0.6319 - mrr_at_10: 0.5057 - ndcg_at_10: 0.5359 - map_at_10: 0.5057 - precision_at_10: 0.0632 - regularization_loss: 0.0000e+00 - loss_batch: 3.4969\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.0021 - recall_at_10: 0.6889 - mrr_at_10: 0.5684 - ndcg_at_10: 0.5973 - map_at_10: 0.5684 - precision_at_10: 0.0689 - regularization_loss: 0.0000e+00 - loss_batch: 3.0072\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.7983 - recall_at_10: 0.1534 - mrr_at_10: 0.0599 - ndcg_at_10: 0.0816 - map_at_10: 0.0599 - precision_at_10: 0.0153 - regularization_loss: 0.0000e+00 - loss_batch: 8.8378\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.798320770263672,\n",
-       " 'recall_at_10': 0.15647922456264496,\n",
-       " 'mrr_at_10': 0.05985381081700325,\n",
-       " 'ndcg_at_10': 0.08228185027837753,\n",
-       " 'map_at_10': 0.05985381081700325,\n",
-       " 'precision_at_10': 0.015647921711206436,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.545936584472656}"
-      ]
-     },
-     "execution_count": 8,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "610da911",
-   "metadata": {},
-   "source": [
-    "# Run 4"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "id": "9e0f0891",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch 1/5\n",
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_3/sequential_block_19/xl_net_block_3/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_3/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 8.8791 - recall_at_10: 0.0414 - mrr_at_10: 0.0155 - ndcg_at_10: 0.0215 - map_at_10: 0.0155 - precision_at_10: 0.0041 - regularization_loss: 0.0000e+00 - loss_batch: 8.8746\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 5.5817 - recall_at_10: 0.3289 - mrr_at_10: 0.2127 - ndcg_at_10: 0.2403 - map_at_10: 0.2127 - precision_at_10: 0.0329 - regularization_loss: 0.0000e+00 - loss_batch: 5.5795\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.8784 - recall_at_10: 0.5761 - mrr_at_10: 0.4489 - ndcg_at_10: 0.4793 - map_at_10: 0.4489 - precision_at_10: 0.0576 - regularization_loss: 0.0000e+00 - loss_batch: 3.8833\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 3.0679 - recall_at_10: 0.6797 - mrr_at_10: 0.5656 - ndcg_at_10: 0.5930 - map_at_10: 0.5656 - precision_at_10: 0.0680 - regularization_loss: 0.0000e+00 - loss_batch: 3.0749\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 2.5693 - recall_at_10: 0.7397 - mrr_at_10: 0.6350 - ndcg_at_10: 0.6602 - map_at_10: 0.6350 - precision_at_10: 0.0740 - regularization_loss: 0.0000e+00 - loss_batch: 2.5767\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.6399 - recall_at_10: 0.1581 - mrr_at_10: 0.0621 - ndcg_at_10: 0.0844 - map_at_10: 0.0621 - precision_at_10: 0.0158 - regularization_loss: 0.0000e+00 - loss_batch: 8.6637\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.63992691040039,\n",
-       " 'recall_at_10': 0.1588301658630371,\n",
-       " 'mrr_at_10': 0.06323756277561188,\n",
-       " 'ndcg_at_10': 0.0855293795466423,\n",
-       " 'map_at_10': 0.06323756277561188,\n",
-       " 'precision_at_10': 0.01588302105665207,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.691500663757324}"
-      ]
-     },
-     "execution_count": 9,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "6cffc60d",
-   "metadata": {},
-   "source": [
-    "# Run 5"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "id": "6981ff6e",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch 1/5\n",
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_4/sequential_block_24/xl_net_block_4/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_4/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 80s 110ms/step - loss: 8.9605 - recall_at_10: 0.0390 - mrr_at_10: 0.0141 - ndcg_at_10: 0.0199 - map_at_10: 0.0141 - precision_at_10: 0.0039 - regularization_loss: 0.0000e+00 - loss_batch: 8.9571\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 110ms/step - loss: 6.1194 - recall_at_10: 0.2618 - mrr_at_10: 0.1575 - ndcg_at_10: 0.1821 - map_at_10: 0.1575 - precision_at_10: 0.0262 - regularization_loss: 0.0000e+00 - loss_batch: 6.1199\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 4.4762 - recall_at_10: 0.5000 - mrr_at_10: 0.3647 - ndcg_at_10: 0.3970 - map_at_10: 0.3647 - precision_at_10: 0.0500 - regularization_loss: 0.0000e+00 - loss_batch: 4.4783\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.6222 - recall_at_10: 0.6166 - mrr_at_10: 0.4884 - ndcg_at_10: 0.5191 - map_at_10: 0.4884 - precision_at_10: 0.0617 - regularization_loss: 0.0000e+00 - loss_batch: 3.6248\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 3.1115 - recall_at_10: 0.6744 - mrr_at_10: 0.5505 - ndcg_at_10: 0.5803 - map_at_10: 0.5505 - precision_at_10: 0.0674 - regularization_loss: 0.0000e+00 - loss_batch: 3.1192\n",
-      "84/84 [==============================] - 7s 40ms/step - loss: 8.8991 - recall_at_10: 0.1457 - mrr_at_10: 0.0572 - ndcg_at_10: 0.0776 - map_at_10: 0.0572 - precision_at_10: 0.0146 - regularization_loss: 0.0000e+00 - loss_batch: 8.9238\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.899141311645508,\n",
-       " 'recall_at_10': 0.14763964712619781,\n",
-       " 'mrr_at_10': 0.05743885040283203,\n",
-       " 'ndcg_at_10': 0.07836496829986572,\n",
-       " 'map_at_10': 0.05743885040283203,\n",
-       " 'precision_at_10': 0.014763964340090752,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.991716384887695}"
-      ]
-     },
-     "execution_count": 10,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "d195f16d",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
-   "language": "python",
-   "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.8.10"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}

From f17303f91c76b29f15bbb25240166797e7391e04 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Wed, 29 Mar 2023 10:37:43 +1000
Subject: [PATCH 08/15] update

---
 T4Rec_repro/reproducing_T4Rec_results.ipynb   |  769 ++++---
 .../reproducing_T4Rec_results_v1.ipynb        |   53 +-
 ...rain_and_save_model_for_benchmarking.ipynb | 2023 +++++++++++------
 3 files changed, 1828 insertions(+), 1017 deletions(-)

diff --git a/T4Rec_repro/reproducing_T4Rec_results.ipynb b/T4Rec_repro/reproducing_T4Rec_results.ipynb
index 8788b157d2..68da1ce2d2 100644
--- a/T4Rec_repro/reproducing_T4Rec_results.ipynb
+++ b/T4Rec_repro/reproducing_T4Rec_results.ipynb
@@ -232,17 +232,18 @@
       "From https://github.com/NVIDIA-Merlin/Models\n",
       " * [new branch]        ci/horovod             -> origin/ci/horovod\n",
       " * [new branch]        codespell_fix          -> origin/codespell_fix\n",
-      "   16fb4149..b1c10317  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
+      "   16fb4149..c9d3baf4  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
       " * [new branch]        fea-sok-load-dump      -> origin/fea-sok-load-dump\n",
-      "   95462360..a69adf75  gh-pages               -> origin/gh-pages\n",
+      "   95462360..28fb60ad  gh-pages               -> origin/gh-pages\n",
       " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
-      "   835ad186..e7fe759c  main                   -> origin/main\n",
+      "   835ad186..a5ac5668  main                   -> origin/main\n",
       " * [new branch]        mtl_example            -> origin/mtl_example\n",
       "   cb431a8a..b90e9a1b  release-22.12          -> origin/release-22.12\n",
       " * [new branch]        release-23.02          -> origin/release-23.02\n",
       " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
       " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
       " * [new branch]        tf/dataloader_changes  -> origin/tf/dataloader_changes\n",
+      " * [new branch]        tf/dlrm_dropout_fix    -> origin/tf/dlrm_dropout_fix\n",
       " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
       " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
       " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
@@ -253,7 +254,7 @@
       " + 0a65d603...9f53e8ff update_07              -> origin/update_07  (forced update)\n",
       " * [new tag]           v23.02.00              -> v23.02.00\n",
       "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
-      "HEAD is now at a92bdc24 adjust sample_weights to targets shape\n"
+      "HEAD is now at a86201ee add masking support to SequencePredictRandom transform\n"
      ]
     },
     {
@@ -267,51 +268,51 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.10.0)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+6.ga92bdc24) (0.0.4)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.19.6)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (22.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.5)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.0.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.56.4)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.64.1)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.12.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.5.0)\n",
-      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7.1)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.4.3)\n",
-      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.22.4)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.12.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.2.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.3.0)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.8.2)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.4)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (8.1.3)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (5.9.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.1.2)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.7.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.26.13)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.1)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.4.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.1.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.14.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (2.1.1)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+6.ga92bdc24) (4.0.0)\n"
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.10.0)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.0.4)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.0.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.64.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.12.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (22.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.20.3)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.1.2)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.1.3)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.12.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.1.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n"
      ]
     },
     {
@@ -321,15 +322,15 @@
       "Building wheels for collected packages: merlin-models\n",
       "  Building wheel for merlin-models (PEP 517): started\n",
       "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+6.ga92bdc24-py3-none-any.whl size=374609 sha256=a5077403f59b4f6c38be0d098b696c96fde6e874ac02e12d04bba00c7dcb9ab2\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-rxmtwiq_/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=87b9a3e64295c03a7c839101199cff72fbe4b9793525bfc6e01a305d87bdeb70\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-jl8gwtl2/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
       "Successfully built merlin-models\n",
       "Installing collected packages: merlin-models\n",
       "  Attempting uninstall: merlin-models\n",
       "    Found existing installation: merlin-models 0.11.0\n",
       "    Uninstalling merlin-models-0.11.0:\n",
       "      Successfully uninstalled merlin-models-0.11.0\n",
-      "Successfully installed merlin-models-23.2.0+6.ga92bdc24\n"
+      "Successfully installed merlin-models-23.2.0+7.ga86201ee\n"
      ]
     },
     {
@@ -353,14 +354,14 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/core\n",
       " * branch            main       -> FETCH_HEAD\n",
-      "   cd96ca5f..aad0c874 main       -> origin/main\n"
+      "   cd96ca5f..2d60d237 main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating cd96ca5f..aad0c874\n",
+      "Updating cd96ca5f..2d60d237\n",
       "Fast-forward\n",
       " .github/release-drafter.yml                        |  44 +--\n",
       " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
@@ -416,7 +417,8 @@
       " merlin/io/parquet.py                               |   8 -\n",
       " merlin/io/writer.py                                |   1 -\n",
       " merlin/schema/io/tensorflow_metadata.py            |  86 +++---\n",
-      " merlin/schema/schema.py                            | 298 +++++++++++---------\n",
+      " merlin/schema/schema.py                            | 312 ++++++++++++---------\n",
+      " merlin/schema/tags.py                              |   1 +\n",
       " merlin/table/__init__.py                           |  24 ++\n",
       " merlin/table/conversions.py                        | 135 +++++++++\n",
       " merlin/table/cupy_column.py                        |  92 ++++++\n",
@@ -435,14 +437,14 @@
       " tests/unit/dtypes/test_shape.py                    | 222 +++++++++++++++\n",
       " tests/unit/io/test_io.py                           |  27 +-\n",
       " tests/unit/schema/test_column_schemas.py           | 142 ++++++----\n",
-      " tests/unit/schema/test_schema.py                   |   7 +-\n",
+      " tests/unit/schema/test_schema.py                   |  22 +-\n",
       " tests/unit/schema/test_schema_io.py                |  27 +-\n",
       " tests/unit/table/test_convert_column.py            |  75 +++++\n",
       " tests/unit/table/test_tensor_column.py             | 186 ++++++++++++\n",
-      " tests/unit/table/test_tensor_table.py              | 311 +++++++++++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 311 ++++++++++++++++++++\n",
       " tests/unit/utils/test_utils.py                     |   3 -\n",
       " tox.ini                                            |   4 +\n",
-      " 80 files changed, 4413 insertions(+), 672 deletions(-)\n",
+      " 81 files changed, 4441 insertions(+), 674 deletions(-)\n",
       " create mode 100644 .github/workflows/cpu-packages.yml\n",
       " create mode 100644 .prettierignore\n",
       " create mode 100644 merlin/dag/utils.py\n",
@@ -483,68 +485,68 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (8.0.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.5.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (2022.7.1)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (3.19.6)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.2.5)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (11.4.1)\n"
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (3.20.3)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.12.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.5.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.3.5)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.2.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (8.0.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.12.0)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (1.3.5)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (0.56.4)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+56.gaad0c874) (22.0)\n",
-      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core==0.9.0+56.gaad0c874) (1.22.4)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (0.12.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (5.9.4)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.4)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.4.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (3.1.2)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (6.1)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.26.13)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.7.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (8.1.3)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.2.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (0.4.3)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.3.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (2022.7)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (5.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (0.39.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+56.gaad0c874) (1.0.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.4)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+56.gaad0c874) (1.14.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+56.gaad0c874) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+56.gaad0c874) (4.0.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (22.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (11.4.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (0.56.4)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (4.64.1)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.57.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2.8.2)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.22.4)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2022.7)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (0.4.3)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (3.1.2)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (5.9.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (0.12.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.26.13)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.7.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (8.1.3)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.4)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.4.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (45.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.14.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.1.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (3.11.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.1)\n",
       "Building wheels for collected packages: merlin-core\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+56.gaad0c874-py3-none-any.whl size=152601 sha256=dcee4602a77df64eb864c60e8cb155c6b8a165a9059ee943770248cef063bf37\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-hkriw5ee/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+60.g2d60d237-py3-none-any.whl size=152708 sha256=ab6c9a4d283317c7ed47d7747512d0e18bf6fa1737cca54ab89c1d48e2c96db9\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-7ssc07tr/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
       "Successfully built merlin-core\n",
       "Installing collected packages: merlin-core\n",
       "  Attempting uninstall: merlin-core\n",
       "    Found existing installation: merlin-core 0.10.0\n",
       "    Uninstalling merlin-core-0.10.0:\n",
       "      Successfully uninstalled merlin-core-0.10.0\n",
-      "Successfully installed merlin-core-0.9.0+56.gaad0c874\n"
+      "Successfully installed merlin-core-0.9.0+60.g2d60d237\n"
      ]
     },
     {
@@ -657,63 +659,63 @@
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
       "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+60.g2d60d237)\n",
       "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+56.gaad0c874)\n",
       "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.20.3)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
       "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
       "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
       "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n"
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
       "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
       "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n",
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=4c4a37dcdcff0046a7edf1346f3664903218a14a689ef96388354d679c1a3da3\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-c7pdm8dg/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=7fa5d632d0c409afe6a05751cc52198f7212ca34522a5f921f5856426f211255\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-3v8i8892/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
       "Installing collected packages: nvtabular\n",
       "  Attempting uninstall: nvtabular\n",
@@ -834,71 +836,71 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+56.gaad0c874)\n",
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
       "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+60.g2d60d237)\n",
       "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
       "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
       "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
       "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (11.4.1)\n",
       "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
       "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.20.3)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n"
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
       "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
       "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
       "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
       "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
       "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
       "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
       "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=7400ab8e12273b15c96f94806974ef168f6bbc63e5a02a9fccf0905f0ea10f43\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-_zkkhk4v/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=decd8362d6a784bc41ada2c225ba4d7965da1f4de845871c0baa332cf9223cad\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-sv7sdyf1/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
@@ -929,14 +931,14 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/dataloader\n",
       " * branch            main       -> FETCH_HEAD\n",
-      "   5b3fe46..dbf8816  main       -> origin/main\n"
+      "   5b3fe46..ce2215d  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating 5b3fe46..dbf8816\n",
+      "Updating 5b3fe46..ce2215d\n",
       "Fast-forward\n",
       " .github/workflows/cpu-ci.yml                       |  81 -----\n",
       " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
@@ -949,15 +951,18 @@
       " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 +++++++++++++++++++++\n",
       " merlin/dataloader/jax.py                           |   3 +\n",
       " merlin/dataloader/loader_base.py                   | 221 ++++--------\n",
+      " merlin/dataloader/ops/embeddings/embedding_op.py   |   4 +-\n",
       " .../ops/embeddings/torch_embedding_op.py           |   4 +-\n",
       " merlin/dataloader/tensorflow.py                    |   9 +-\n",
       " merlin/dataloader/torch.py                         |  49 ++-\n",
       " merlin/dataloader/utils/tf/tf_trainer.py           |   2 +-\n",
       " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
       " tests/unit/dataloader/test_tf_dataloader.py        |  20 +-\n",
+      " tests/unit/dataloader/test_tf_embeddings.py        |  24 +-\n",
       " tests/unit/dataloader/test_torch_dataloader.py     |  38 +++\n",
+      " tests/unit/dataloader/test_torch_embeddings.py     |  12 +-\n",
       " tox.ini                                            |   1 +\n",
-      " 19 files changed, 781 insertions(+), 278 deletions(-)\n",
+      " 22 files changed, 801 insertions(+), 298 deletions(-)\n",
       " create mode 100644 .github/workflows/cpu-packages.yml\n",
       " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
       " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
@@ -969,90 +974,80 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+41.gdbf8816) (0.9.0+56.gaad0c874)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (11.4.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.56.4)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.12.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.19.6)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.5.0)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
-      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.4.3)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.1.3)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.1)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.1.2)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n"
+      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+43.gce2215d) (0.9.0+60.g2d60d237)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.5.0)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.12.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (11.4.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.5)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.56.4)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.20.3)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.64.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (22.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.5)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.9.4)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.1)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.7.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.1.2)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.1.3)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.4.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.26.13)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.12.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.57.0)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.22.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.39.1)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.11.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.4)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.0.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.1.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.1)\n",
       "Building wheels for collected packages: merlin-dataloader\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=25522e9c2124926ac2063828d36ae15009e18cb85666b6ebf5c29cdd24213231\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-vvfapbst/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+43.gce2215d-py3-none-any.whl size=40867 sha256=50cce97c1e4f2bd217079e464c511215d0b1d243b2aedb49afff090eb31e10ae\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-amzw6h6k/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
       "Successfully built merlin-dataloader\n",
       "Installing collected packages: merlin-dataloader\n",
       "  Attempting uninstall: merlin-dataloader\n",
       "    Found existing installation: merlin-dataloader 0.0.4\n",
       "    Uninstalling merlin-dataloader-0.0.4:\n",
       "      Successfully uninstalled merlin-dataloader-0.0.4\n",
-      "Successfully installed merlin-dataloader-0.0.2+41.gdbf8816\n",
-      "Collecting matplotlib\n",
-      "  Downloading matplotlib-3.7.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (9.2 MB)\n",
-      "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
-      "Collecting cycler>=0.10\n",
-      "  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)\n",
-      "Collecting kiwisolver>=1.0.1\n",
-      "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
+      "Successfully installed merlin-dataloader-0.0.2+43.gce2215d\n",
+      "Requirement already satisfied: matplotlib in /usr/local/lib/python3.8/dist-packages (3.6.2)\n",
       "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
+      "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.0.6)\n",
+      "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (0.11.0)\n",
+      "Requirement already satisfied: numpy>=1.19 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
+      "Requirement already satisfied: pyparsing>=2.2.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
+      "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (4.38.0)\n",
       "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
-      "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
-      "Collecting fonttools>=4.22.0\n",
-      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
-      "Collecting pillow>=6.2.0\n",
-      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
-      "Collecting contourpy>=1.0.1\n",
-      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
-      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
-      "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n",
-      "Installing collected packages: cycler, kiwisolver, fonttools, pillow, contourpy, matplotlib\n",
-      "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.0 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.4.0\n"
+      "Requirement already satisfied: pillow>=6.2.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (9.3.0)\n",
+      "Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.4.4)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n"
      ]
     }
    ],
@@ -1079,18 +1074,18 @@
      "text": [
       "Collecting gdown\n",
       "  Downloading gdown-4.6.4-py3-none-any.whl (14 kB)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
       "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
       "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
       "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
-      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
-      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
       "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
       "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
       "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
-      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
       "Installing collected packages: gdown, PySocks\n",
       "Successfully installed PySocks-1.7.1 gdown-4.6.4\n"
      ]
@@ -1102,40 +1097,40 @@
       "Downloading...\n",
       "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
       "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.42MB/s]\n"
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.08MB/s]\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
-      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [907 kB]\n",
-      "Get:3 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
-      "Get:4 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
-      "Get:5 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1998 kB]\n",
-      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
-      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Get:8 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
-      "Get:9 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2539 kB]\n",
-      "Get:10 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
-      "Get:11 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
-      "Get:12 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1015 kB]\n",
+      "Get:1 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:3 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1998 kB]\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:6 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:7 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:8 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2544 kB]\n",
+      "Get:9 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1017 kB]\n",
+      "Get:10 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:11 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [920 kB]\n",
+      "Get:12 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
       "Get:13 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
       "Get:14 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
-      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
-      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1310 kB]\n",
-      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2134 kB]\n",
-      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3014 kB]\n",
-      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
-      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
-      "Fetched 26.5 MB in 11s (2470 kB/s)\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3019 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2134 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1312 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Fetched 26.5 MB in 9s (3028 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
       "Reading state information...\n",
       "unzip is already the newest version (6.0-25ubuntu1.1).\n",
-      "0 upgraded, 0 newly installed, 0 to remove and 84 not upgraded.\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 88 not upgraded.\n",
       "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
       "   creating: ecom_dataset/0001/\n",
       "  inflating: ecom_dataset/0001/valid.parquet  \n",
@@ -1165,7 +1160,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 3,
    "id": "ceb3ae93",
    "metadata": {},
    "outputs": [
@@ -1173,7 +1168,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-09 06:23:10.964331: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-03-13 08:23:26.109904: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
      ]
     },
@@ -1190,21 +1185,21 @@
      "text": [
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "2023-03-09 06:23:13.408883: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:13.409336: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:13.409494: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:29.137620: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:29.138164: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:29.138302: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
       "  from .autonotebook import tqdm as notebook_tqdm\n",
-      "2023-03-09 06:23:13.887706: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-03-13 08:23:29.697679: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-09 06:23:13.888643: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:13.888853: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:13.889008: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:14.636457: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:14.636673: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:14.636835: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-09 06:23:14.636950: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-09 06:23:14.637016: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+      "2023-03-13 08:23:29.698582: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:29.698767: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:29.698900: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:30.652140: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:30.652338: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:30.652477: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:23:30.652590: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-13 08:23:30.652656: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
      ]
     }
    ],
@@ -1223,7 +1218,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 4,
    "id": "11647dd3",
    "metadata": {},
    "outputs": [],
@@ -1234,7 +1229,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 5,
    "id": "4ab4e0fb",
    "metadata": {},
    "outputs": [],
@@ -1244,7 +1239,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 16,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
@@ -1256,12 +1251,14 @@
     "n_head = 16\n",
     "batch_size = 128\n",
     "learning_rate = 0.0006667377132554976\n",
-    "n_epoch = 5"
+    "n_epoch = 5\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 9,
    "id": "a6ade14a",
    "metadata": {},
    "outputs": [],
@@ -1275,19 +1272,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 10,
    "id": "7f15a0a0",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
     "\n",
@@ -1299,35 +1287,91 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 14,
    "id": "74ccc9a9",
    "metadata": {},
    "outputs": [],
    "source": [
-    "train.schema = schema"
+    "# we only use the item-id as input to the model\n",
+    "schema_model = schema.select_by_tag(Tags.ITEM_ID)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 22,
+   "execution_count": 1,
    "id": "5a4c7ca3",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 08:58:39.475828: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-13 08:58:41.961797: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:41.962213: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:41.962371: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-13 08:58:42.406474: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-13 08:58:42.407434: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:42.407642: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:42.407804: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:43.170053: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:43.170266: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:43.170428: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:58:43.170555: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    },
+    {
+     "ename": "NameError",
+     "evalue": "name 'schema_model' is not defined",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[1], line 4\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m InputBlockV2\n\u001b[1;32m      2\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mtensorflow\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mtf\u001b[39;00m\n\u001b[1;32m      3\u001b[0m input_block \u001b[38;5;241m=\u001b[39m InputBlockV2(\n\u001b[0;32m----> 4\u001b[0m     \u001b[43mschema_model\u001b[49m,\n\u001b[1;32m      5\u001b[0m     categorical\u001b[38;5;241m=\u001b[39mmm\u001b[38;5;241m.\u001b[39mEmbeddings(\n\u001b[1;32m      6\u001b[0m             schema_model\u001b[38;5;241m.\u001b[39mselect_by_tag(Tags\u001b[38;5;241m.\u001b[39mCATEGORICAL),\n\u001b[1;32m      7\u001b[0m             dim\u001b[38;5;241m=\u001b[39mitem_embedding_dim,\n\u001b[1;32m      8\u001b[0m             \u001b[38;5;66;03m#This is equivalent of torch.nn.init.normal_\u001b[39;00m\n\u001b[1;32m      9\u001b[0m \u001b[38;5;66;03m#             embeddings_initializer=tf.keras.initializers.RandomNormal(\u001b[39;00m\n\u001b[1;32m     10\u001b[0m \u001b[38;5;66;03m#                 mean=0.0,\u001b[39;00m\n\u001b[1;32m     11\u001b[0m \u001b[38;5;66;03m#                 stddev=item_id_embeddings_init_std\u001b[39;00m\n\u001b[1;32m     12\u001b[0m \u001b[38;5;66;03m#             ),\u001b[39;00m\n\u001b[1;32m     13\u001b[0m             sequence_combiner\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mNone\u001b[39;00m,\n\u001b[1;32m     14\u001b[0m         )\n\u001b[1;32m     15\u001b[0m     )\n",
+      "\u001b[0;31mNameError\u001b[0m: name 'schema_model' is not defined"
+     ]
+    }
+   ],
    "source": [
-    "input_block = mm.InputBlockV2(\n",
-    "    train.schema.select_by_name('sess_pid_seq'),    \n",
-    "    embeddings=mm.Embeddings(\n",
-    "        train.schema.select_by_name('sess_pid_seq'), \n",
-    "        sequence_combiner=None,\n",
-    "        dim=d_model\n",
-    "        ),\n",
-    "#     pre=mm.StochasticSwapNoise()\n",
-    ")"
+    "from merlin.models.tf import InputBlockV2\n",
+    "import tensorflow as tf\n",
+    "input_block = InputBlockV2(\n",
+    "    schema_model,\n",
+    "    categorical=mm.Embeddings(\n",
+    "            schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "            dim=item_embedding_dim,\n",
+    "            #This is equivalent of torch.nn.init.normal_\n",
+    "#             embeddings_initializer=tf.keras.initializers.RandomNormal(\n",
+    "#                 mean=0.0,\n",
+    "#                 stddev=item_id_embeddings_init_std\n",
+    "#             ),\n",
+    "            sequence_combiner=None,\n",
+    "        )\n",
+    "    )"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 23,
+   "execution_count": 18,
    "id": "34c739b3",
    "metadata": {},
    "outputs": [],
@@ -1337,7 +1381,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 24,
+   "execution_count": 19,
    "id": "14c35b2a",
    "metadata": {},
    "outputs": [],
@@ -1347,7 +1391,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 25,
+   "execution_count": 20,
    "id": "866f3249",
    "metadata": {},
    "outputs": [],
@@ -1361,7 +1405,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 21,
    "id": "288d08df",
    "metadata": {},
    "outputs": [],
@@ -1375,7 +1419,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": 22,
    "id": "064ea5ec",
    "metadata": {},
    "outputs": [],
@@ -1387,7 +1431,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 28,
+   "execution_count": 23,
    "id": "6c008e16",
    "metadata": {},
    "outputs": [],
@@ -1397,7 +1441,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 29,
+   "execution_count": 24,
    "id": "49b12d31",
    "metadata": {},
    "outputs": [],
@@ -1409,7 +1453,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 35,
+   "execution_count": 25,
    "id": "d84a30d3",
    "metadata": {},
    "outputs": [],
@@ -1421,36 +1465,52 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 36,
+   "execution_count": 27,
    "id": "e7474131",
    "metadata": {},
    "outputs": [
     {
-     "name": "stdout",
+     "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Epoch 1/5\n",
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_1/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 78s 110ms/step - loss: 3.7036 - recall_at_10: 0.6067 - mrr_at_10: 0.4806 - ndcg_at_10: 0.5108 - map_at_10: 0.4806 - precision_at_10: 0.0607 - regularization_loss: 0.0000e+00 - loss_batch: 3.7070\n",
-      "Epoch 2/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 2.9681 - recall_at_10: 0.6940 - mrr_at_10: 0.5792 - ndcg_at_10: 0.6068 - map_at_10: 0.5792 - precision_at_10: 0.0694 - regularization_loss: 0.0000e+00 - loss_batch: 2.9733\n",
-      "Epoch 3/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 2.5195 - recall_at_10: 0.7439 - mrr_at_10: 0.6367 - ndcg_at_10: 0.6625 - map_at_10: 0.6367 - precision_at_10: 0.0744 - regularization_loss: 0.0000e+00 - loss_batch: 2.5258\n",
-      "Epoch 4/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 2.2286 - recall_at_10: 0.7810 - mrr_at_10: 0.6800 - ndcg_at_10: 0.7043 - map_at_10: 0.6800 - precision_at_10: 0.0781 - regularization_loss: 0.0000e+00 - loss_batch: 2.2364\n",
-      "Epoch 5/5\n",
-      "677/677 [==============================] - 75s 111ms/step - loss: 2.0158 - recall_at_10: 0.8031 - mrr_at_10: 0.7071 - ndcg_at_10: 0.7302 - map_at_10: 0.7071 - precision_at_10: 0.0803 - regularization_loss: 0.0000e+00 - loss_batch: 2.0250\n"
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
      ]
     },
     {
-     "data": {
-      "text/plain": [
-       "<keras.callbacks.History at 0x7f6d0f8735e0>"
-      ]
-     },
-     "execution_count": 36,
-     "metadata": {},
-     "output_type": "execute_result"
+     "ename": "LinkerError",
+     "evalue": "[222] Call to cuLinkAddData results in UNKNOWN_CUDA_ERROR\nptxas application ptx input, line 9; fatal   : Unsupported .version 7.8; current version is '7.7'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mLinkerError\u001b[0m                               Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[27], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m \u001b[43mmodel_transformer\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m      2\u001b[0m \u001b[43m    \u001b[49m\u001b[43mtrain\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      3\u001b[0m \u001b[43m    \u001b[49m\u001b[43mbatch_size\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mbatch_size\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      4\u001b[0m \u001b[43m    \u001b[49m\u001b[43mepochs\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mn_epoch\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      5\u001b[0m \u001b[43m    \u001b[49m\u001b[43mpre\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mmm\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mSequencePredictNext\u001b[49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrain\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtransformer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mxlnet_block\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m      6\u001b[0m \u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/models/base.py:1363\u001b[0m, in \u001b[0;36mBaseModel.fit\u001b[0;34m(self, x, y, batch_size, epochs, verbose, callbacks, validation_split, validation_data, shuffle, class_weight, sample_weight, initial_epoch, steps_per_epoch, validation_steps, validation_batch_size, validation_freq, max_queue_size, workers, use_multiprocessing, train_metrics_steps, pre, **kwargs)\u001b[0m\n\u001b[1;32m   1360\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre, SequenceTransform):\n\u001b[1;32m   1361\u001b[0m         \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre\u001b[38;5;241m.\u001b[39mconfigure_for_train()\n\u001b[0;32m-> 1363\u001b[0m out \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mfit_kwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1365\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m pre:\n\u001b[1;32m   1366\u001b[0m     \u001b[38;5;28;01mdel\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/utils/traceback_utils.py:70\u001b[0m, in \u001b[0;36mfilter_traceback.<locals>.error_handler\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     67\u001b[0m     filtered_tb \u001b[38;5;241m=\u001b[39m _process_traceback_frames(e\u001b[38;5;241m.\u001b[39m__traceback__)\n\u001b[1;32m     68\u001b[0m     \u001b[38;5;66;03m# To get the full stack trace, call:\u001b[39;00m\n\u001b[1;32m     69\u001b[0m     \u001b[38;5;66;03m# `tf.debugging.disable_traceback_filtering()`\u001b[39;00m\n\u001b[0;32m---> 70\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m e\u001b[38;5;241m.\u001b[39mwith_traceback(filtered_tb) \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;28mNone\u001b[39m\n\u001b[1;32m     71\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n\u001b[1;32m     72\u001b[0m     \u001b[38;5;28;01mdel\u001b[39;00m filtered_tb\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/tensorflow.py:154\u001b[0m, in \u001b[0;36mLoader.__getitem__\u001b[0;34m(self, index)\u001b[0m\n\u001b[1;32m    146\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__getitem__\u001b[39m(\u001b[38;5;28mself\u001b[39m, index):\n\u001b[1;32m    147\u001b[0m     \u001b[38;5;124;03m\"\"\"Gets batch at position `index`.\u001b[39;00m\n\u001b[1;32m    148\u001b[0m \n\u001b[1;32m    149\u001b[0m \u001b[38;5;124;03m    Note: This returns the next batch in the iterator.\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    152\u001b[0m \u001b[38;5;124;03m          don't currently support fetching a batch by index.\u001b[39;00m\n\u001b[1;32m    153\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 154\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mLoaderBase\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__next__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:251\u001b[0m, in \u001b[0;36mLoaderBase.__next__\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    249\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__next__\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[1;32m    250\u001b[0m     \u001b[38;5;124;03m\"\"\"Get the next batch.\"\"\"\u001b[39;00m\n\u001b[0;32m--> 251\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_get_next_batch\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:322\u001b[0m, in \u001b[0;36mLoaderBase._get_next_batch\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    320\u001b[0m \u001b[38;5;66;03m# try to iterate through existing batches\u001b[39;00m\n\u001b[1;32m    321\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 322\u001b[0m     batch \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mnext\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_batch_itr)\n\u001b[1;32m    323\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mStopIteration\u001b[39;00m:\n\u001b[1;32m    324\u001b[0m     \u001b[38;5;66;03m# anticipate any more chunks getting created\u001b[39;00m\n\u001b[1;32m    325\u001b[0m     \u001b[38;5;66;03m# if not, raise the StopIteration\u001b[39;00m\n\u001b[1;32m    326\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_working \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_buff\u001b[38;5;241m.\u001b[39mempty:\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:362\u001b[0m, in \u001b[0;36mLoaderBase.make_tensors\u001b[0;34m(self, gdf, use_row_lengths)\u001b[0m\n\u001b[1;32m    359\u001b[0m split_idx \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_segment_lengths(\u001b[38;5;28mlen\u001b[39m(gdf))\n\u001b[1;32m    361\u001b[0m \u001b[38;5;66;03m# convert dataframe to framework-specific tensors\u001b[39;00m\n\u001b[0;32m--> 362\u001b[0m tensors_by_name \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_process_dataframe\u001b[49m\u001b[43m(\u001b[49m\u001b[43mgdf\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    364\u001b[0m \u001b[38;5;66;03m# split them into batches and map to the framework-specific output format\u001b[39;00m\n\u001b[1;32m    365\u001b[0m tensor_batches \u001b[38;5;241m=\u001b[39m {}\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:488\u001b[0m, in \u001b[0;36mLoaderBase._process_dataframe\u001b[0;34m(self, gdf)\u001b[0m\n\u001b[1;32m    485\u001b[0m column \u001b[38;5;241m=\u001b[39m gdf_i\u001b[38;5;241m.\u001b[39mpop(column_name)\n\u001b[1;32m    486\u001b[0m leaves, col_offsets \u001b[38;5;241m=\u001b[39m pull_apart_list(column, device\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdevice)\n\u001b[0;32m--> 488\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(\u001b[43mleaves\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m, \u001b[38;5;28mlist\u001b[39m):\n\u001b[1;32m    489\u001b[0m     leaves, nest_offsets \u001b[38;5;241m=\u001b[39m pull_apart_list(leaves, device\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdevice)\n\u001b[1;32m    490\u001b[0m     col_offsets \u001b[38;5;241m=\u001b[39m nest_offsets\u001b[38;5;241m.\u001b[39miloc[col_offsets[:]]\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:1171\u001b[0m, in \u001b[0;36mSeries.__getitem__\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m   1169\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39miloc[arg]\n\u001b[1;32m   1170\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m-> 1171\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mloc\u001b[49m\u001b[43m[\u001b[49m\u001b[43marg\u001b[49m\u001b[43m]\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:255\u001b[0m, in \u001b[0;36m_SeriesLocIndexer.__getitem__\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m    253\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n\u001b[1;32m    254\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 255\u001b[0m     arg \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_loc_to_iloc(arg)\n\u001b[1;32m    256\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m (\u001b[38;5;167;01mTypeError\u001b[39;00m, \u001b[38;5;167;01mKeyError\u001b[39;00m, \u001b[38;5;167;01mIndexError\u001b[39;00m, \u001b[38;5;167;01mValueError\u001b[39;00m):\n\u001b[1;32m    257\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mKeyError\u001b[39;00m(arg)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:294\u001b[0m, in \u001b[0;36m_SeriesLocIndexer._loc_to_iloc\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m    292\u001b[0m         \u001b[38;5;28;01mreturn\u001b[39;00m found_index\n\u001b[1;32m    293\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 294\u001b[0m     found_index \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_frame\u001b[38;5;241m.\u001b[39mindex\u001b[38;5;241m.\u001b[39m_values\u001b[38;5;241m.\u001b[39mfind_first_value(\n\u001b[1;32m    295\u001b[0m         arg, closest\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mFalse\u001b[39;00m\n\u001b[1;32m    296\u001b[0m     )\n\u001b[1;32m    297\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m found_index\n\u001b[1;32m    298\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m (\u001b[38;5;167;01mTypeError\u001b[39;00m, \u001b[38;5;167;01mKeyError\u001b[39;00m, \u001b[38;5;167;01mIndexError\u001b[39;00m, \u001b[38;5;167;01mValueError\u001b[39;00m):\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/column/numerical.py:566\u001b[0m, in \u001b[0;36mNumericalColumn.find_first_value\u001b[0;34m(self, value, closest)\u001b[0m\n\u001b[1;32m    564\u001b[0m     \u001b[38;5;28;01melif\u001b[39;00m value \u001b[38;5;241m>\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmax():\n\u001b[1;32m    565\u001b[0m         \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m)\n\u001b[0;32m--> 566\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_find_value\u001b[49m\u001b[43m(\u001b[49m\u001b[43mvalue\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mclosest\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mcudautils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfind_first\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mgt\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/column/numerical.py:534\u001b[0m, in \u001b[0;36mNumericalColumn._find_value\u001b[0;34m(self, value, closest, find, compare)\u001b[0m\n\u001b[1;32m    532\u001b[0m found \u001b[38;5;241m=\u001b[39m \u001b[38;5;241m0\u001b[39m\n\u001b[1;32m    533\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[0;32m--> 534\u001b[0m     found \u001b[38;5;241m=\u001b[39m \u001b[43mfind\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    535\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mdata_array_view\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    536\u001b[0m \u001b[43m        \u001b[49m\u001b[43mvalue\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    537\u001b[0m \u001b[43m        \u001b[49m\u001b[43mmask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mmask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    538\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    539\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m found \u001b[38;5;241m==\u001b[39m \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m1\u001b[39m:\n\u001b[1;32m    540\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mis_monotonic_increasing \u001b[38;5;129;01mand\u001b[39;00m closest:\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/utils/cudautils.py:114\u001b[0m, in \u001b[0;36mfind_first\u001b[0;34m(arr, val, mask, compare)\u001b[0m\n\u001b[1;32m    100\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mfind_first\u001b[39m(arr, val, mask\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mNone\u001b[39;00m, compare\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124meq\u001b[39m\u001b[38;5;124m\"\u001b[39m):\n\u001b[1;32m    101\u001b[0m     \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m    102\u001b[0m \u001b[38;5;124;03m    Returns the index of the first occurrence of *val* in *arr*..\u001b[39;00m\n\u001b[1;32m    103\u001b[0m \u001b[38;5;124;03m    Or the first occurrence of *arr* *compare* *val*, if *compare* is not eq\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    111\u001b[0m \u001b[38;5;124;03m    compare: str ('gt', 'lt', or 'eq' (default))\u001b[39;00m\n\u001b[1;32m    112\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 114\u001b[0m     found_col \u001b[38;5;241m=\u001b[39m \u001b[43mfind_index_of_val\u001b[49m\u001b[43m(\u001b[49m\u001b[43marr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mval\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mmask\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mcompare\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mcompare\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    115\u001b[0m     found_col \u001b[38;5;241m=\u001b[39m found_col\u001b[38;5;241m.\u001b[39mfind_and_replace([arr\u001b[38;5;241m.\u001b[39msize], [\u001b[38;5;28;01mNone\u001b[39;00m], \u001b[38;5;28;01mTrue\u001b[39;00m)\n\u001b[1;32m    117\u001b[0m     min_index \u001b[38;5;241m=\u001b[39m found_col\u001b[38;5;241m.\u001b[39mmin()\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/utils/cudautils.py:93\u001b[0m, in \u001b[0;36mfind_index_of_val\u001b[0;34m(arr, val, mask, compare)\u001b[0m\n\u001b[1;32m     89\u001b[0m             gpu_mark_found_float\u001b[38;5;241m.\u001b[39mforall(found\u001b[38;5;241m.\u001b[39msize)(\n\u001b[1;32m     90\u001b[0m                 arr, val, found, arr\u001b[38;5;241m.\u001b[39msize\n\u001b[1;32m     91\u001b[0m             )\n\u001b[1;32m     92\u001b[0m         \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m---> 93\u001b[0m             \u001b[43mgpu_mark_found_int\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mforall\u001b[49m\u001b[43m(\u001b[49m\u001b[43mfound\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43msize\u001b[49m\u001b[43m)\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m     94\u001b[0m \u001b[43m                \u001b[49m\u001b[43marr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mval\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mfound\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43marr\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43msize\u001b[49m\n\u001b[1;32m     95\u001b[0m \u001b[43m            \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m     97\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m cudf\u001b[38;5;241m.\u001b[39mcore\u001b[38;5;241m.\u001b[39mcolumn\u001b[38;5;241m.\u001b[39mcolumn\u001b[38;5;241m.\u001b[39mas_column(found)\u001b[38;5;241m.\u001b[39mset_mask(mask)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:438\u001b[0m, in \u001b[0;36mForAll.__call__\u001b[0;34m(self, *args)\u001b[0m\n\u001b[1;32m    436\u001b[0m     specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdispatcher\n\u001b[1;32m    437\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m--> 438\u001b[0m     specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mdispatcher\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mspecialize\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    439\u001b[0m blockdim \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_compute_thread_per_block(specialized)\n\u001b[1;32m    440\u001b[0m griddim \u001b[38;5;241m=\u001b[39m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mntasks \u001b[38;5;241m+\u001b[39m blockdim \u001b[38;5;241m-\u001b[39m \u001b[38;5;241m1\u001b[39m) \u001b[38;5;241m/\u001b[39m\u001b[38;5;241m/\u001b[39m blockdim\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:667\u001b[0m, in \u001b[0;36mCUDADispatcher.specialize\u001b[0;34m(self, *args)\u001b[0m\n\u001b[1;32m    664\u001b[0m targetoptions \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtargetoptions\n\u001b[1;32m    665\u001b[0m specialization \u001b[38;5;241m=\u001b[39m CUDADispatcher(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpy_func,\n\u001b[1;32m    666\u001b[0m                                 targetoptions\u001b[38;5;241m=\u001b[39mtargetoptions)\n\u001b[0;32m--> 667\u001b[0m \u001b[43mspecialization\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mcompile\u001b[49m\u001b[43m(\u001b[49m\u001b[43margtypes\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    668\u001b[0m specialization\u001b[38;5;241m.\u001b[39mdisable_compile()\n\u001b[1;32m    669\u001b[0m specialization\u001b[38;5;241m.\u001b[39m_specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mTrue\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:796\u001b[0m, in \u001b[0;36mCUDADispatcher.compile\u001b[0;34m(self, sig)\u001b[0m\n\u001b[1;32m    794\u001b[0m     kernel \u001b[38;5;241m=\u001b[39m _Kernel(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpy_func, argtypes, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtargetoptions)\n\u001b[1;32m    795\u001b[0m     \u001b[38;5;66;03m# We call bind to force codegen, so that there is a cubin to cache\u001b[39;00m\n\u001b[0;32m--> 796\u001b[0m     \u001b[43mkernel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mbind\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    797\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_cache\u001b[38;5;241m.\u001b[39msave_overload(sig, kernel)\n\u001b[1;32m    799\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39madd_overload(kernel, argtypes)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:178\u001b[0m, in \u001b[0;36m_Kernel.bind\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    174\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mbind\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[1;32m    175\u001b[0m     \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m    176\u001b[0m \u001b[38;5;124;03m    Force binding to current CUDA context\u001b[39;00m\n\u001b[1;32m    177\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 178\u001b[0m     \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_codelibrary\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mget_cufunc\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/codegen.py:208\u001b[0m, in \u001b[0;36mCUDACodeLibrary.get_cufunc\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    205\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m cufunc:\n\u001b[1;32m    206\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m cufunc\n\u001b[0;32m--> 208\u001b[0m cubin \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mget_cubin\u001b[49m\u001b[43m(\u001b[49m\u001b[43mcc\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdevice\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mcompute_capability\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    209\u001b[0m module \u001b[38;5;241m=\u001b[39m ctx\u001b[38;5;241m.\u001b[39mcreate_module_image(cubin)\n\u001b[1;32m    211\u001b[0m \u001b[38;5;66;03m# Load\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/codegen.py:181\u001b[0m, in \u001b[0;36mCUDACodeLibrary.get_cubin\u001b[0;34m(self, cc)\u001b[0m\n\u001b[1;32m    179\u001b[0m ptxes \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_ptxes(cc\u001b[38;5;241m=\u001b[39mcc)\n\u001b[1;32m    180\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m ptx \u001b[38;5;129;01min\u001b[39;00m ptxes:\n\u001b[0;32m--> 181\u001b[0m     \u001b[43mlinker\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43madd_ptx\u001b[49m\u001b[43m(\u001b[49m\u001b[43mptx\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencode\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    182\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m path \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_linking_files:\n\u001b[1;32m    183\u001b[0m     linker\u001b[38;5;241m.\u001b[39madd_file_guess_ext(path)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/cudadrv/driver.py:2708\u001b[0m, in \u001b[0;36mCtypesLinker.add_ptx\u001b[0;34m(self, ptx, name)\u001b[0m\n\u001b[1;32m   2705\u001b[0m     driver\u001b[38;5;241m.\u001b[39mcuLinkAddData(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mhandle, enums\u001b[38;5;241m.\u001b[39mCU_JIT_INPUT_PTX,\n\u001b[1;32m   2706\u001b[0m                          ptxbuf, \u001b[38;5;28mlen\u001b[39m(ptx), namebuf, \u001b[38;5;241m0\u001b[39m, \u001b[38;5;28;01mNone\u001b[39;00m, \u001b[38;5;28;01mNone\u001b[39;00m)\n\u001b[1;32m   2707\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m CudaAPIError \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[0;32m-> 2708\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m LinkerError(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;130;01m\\n\u001b[39;00m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;124m\"\u001b[39m \u001b[38;5;241m%\u001b[39m (e, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39merror_log))\n",
+      "\u001b[0;31mLinkerError\u001b[0m: [222] Call to cuLinkAddData results in UNKNOWN_CUDA_ERROR\nptxas application ptx input, line 9; fatal   : Unsupported .version 7.8; current version is '7.7'"
+     ]
     }
    ],
    "source": [
@@ -1464,7 +1524,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 37,
+   "execution_count": null,
    "id": "7bf839e3",
    "metadata": {},
    "outputs": [],
@@ -1474,35 +1534,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 38,
+   "execution_count": null,
    "id": "15ccc448",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "84/84 [==============================] - 8s 40ms/step - loss: 8.7361 - recall_at_10: 0.1869 - mrr_at_10: 0.0721 - ndcg_at_10: 0.0988 - map_at_10: 0.0721 - precision_at_10: 0.0187 - regularization_loss: 0.0000e+00 - loss_batch: 8.7682\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.73610782623291,\n",
-       " 'recall_at_10': 0.1859131157398224,\n",
-       " 'mrr_at_10': 0.07267787307500839,\n",
-       " 'ndcg_at_10': 0.09902743250131607,\n",
-       " 'map_at_10': 0.07267787307500839,\n",
-       " 'precision_at_10': 0.01859130710363388,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 10.154594421386719}"
-      ]
-     },
-     "execution_count": 38,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer.evaluate(\n",
     "    valid,\n",
diff --git a/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb b/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb
index 7048c3725f..03f58fac35 100644
--- a/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb
+++ b/T4Rec_repro/reproducing_T4Rec_results_v1.ipynb
@@ -427,10 +427,59 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 1,
    "id": "d07aa5f1",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-03-13 08:59:03.639356: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-13 08:59:06.043292: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:06.043715: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:06.043867: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "2023-03-13 08:59:06.482103: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-03-13 08:59:06.482984: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:06.483177: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:06.483311: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:07.217453: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:07.217641: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:07.217778: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-13 08:59:07.217903: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+     ]
+    },
+    {
+     "ename": "NameError",
+     "evalue": "name 'schema_model' is not defined",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[1], line 4\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m InputBlockV2\n\u001b[1;32m      2\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mtensorflow\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mtf\u001b[39;00m\n\u001b[1;32m      3\u001b[0m input_block \u001b[38;5;241m=\u001b[39m InputBlockV2(\n\u001b[0;32m----> 4\u001b[0m     \u001b[43mschema_model\u001b[49m,\n\u001b[1;32m      5\u001b[0m     categorical\u001b[38;5;241m=\u001b[39mmm\u001b[38;5;241m.\u001b[39mEmbeddings(\n\u001b[1;32m      6\u001b[0m             schema_model\u001b[38;5;241m.\u001b[39mselect_by_tag(Tags\u001b[38;5;241m.\u001b[39mCATEGORICAL),\n\u001b[1;32m      7\u001b[0m             dim\u001b[38;5;241m=\u001b[39mitem_embedding_dim,\n\u001b[1;32m      8\u001b[0m             \u001b[38;5;66;03m#This is equivalent of torch.nn.init.normal_\u001b[39;00m\n\u001b[1;32m      9\u001b[0m \u001b[38;5;66;03m#             embeddings_initializer=tf.keras.initializers.RandomNormal(\u001b[39;00m\n\u001b[1;32m     10\u001b[0m \u001b[38;5;66;03m#                 mean=0.0,\u001b[39;00m\n\u001b[1;32m     11\u001b[0m \u001b[38;5;66;03m#                 stddev=item_id_embeddings_init_std\u001b[39;00m\n\u001b[1;32m     12\u001b[0m \u001b[38;5;66;03m#             ),\u001b[39;00m\n\u001b[1;32m     13\u001b[0m             sequence_combiner\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mNone\u001b[39;00m,\n\u001b[1;32m     14\u001b[0m         ),\n\u001b[1;32m     15\u001b[0m     \u001b[38;5;66;03m#pre=mm.StochasticSwapNoise(schema_model, replacement_prob=0.1) # This is not working with sequences transforms\u001b[39;00m\n\u001b[1;32m     16\u001b[0m     \u001b[38;5;66;03m# we apply dropout and layer-norm as post-processing steps before aggregation\u001b[39;00m\n\u001b[1;32m     17\u001b[0m     post\u001b[38;5;241m=\u001b[39mTabularDropout(input_dropout)\u001b[38;5;241m.\u001b[39mconnect(TabularNorm())\n\u001b[1;32m     18\u001b[0m     )\n",
+      "\u001b[0;31mNameError\u001b[0m: name 'schema_model' is not defined"
+     ]
+    }
+   ],
    "source": [
     "from merlin.models.tf import InputBlockV2\n",
     "import tensorflow as tf\n",
diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
index 0f43a5dac9..f6f757b496 100644
--- a/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
@@ -3,7 +3,7 @@
   {
    "cell_type": "code",
    "execution_count": 1,
-   "id": "54d6ef61",
+   "id": "d062ceda",
    "metadata": {},
    "outputs": [
     {
@@ -11,22 +11,31 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/Models\n",
-      " + 20a40d72...a92bdc24 tf/transformer-api -> origin/tf/transformer-api  (forced update)\n",
-      "Warning: you are leaving 5 commits behind, not connected to\n",
-      "any of your branches:\n",
-      "\n",
-      "  20a40d72 fix masking of sequence-predict-next transform\n",
-      "  dbd2d9c8 include PR comments\n",
-      "  1e642e87 update example notebook with the new API\n",
-      "  e99e7985 add support of ragged tensor to weight tying\n",
-      "  e87913d1 implement new design of the Transformer API on top of the release-23.02 branch\n",
-      "\n",
-      "If you want to keep them by creating a new branch, this may be a good time\n",
-      "to do so with:\n",
-      "\n",
-      " git branch <new-branch-name> 20a40d72\n",
-      "\n",
-      "HEAD is now at a92bdc24 adjust sample_weights to targets shape\n"
+      " * [new branch]        ci/horovod             -> origin/ci/horovod\n",
+      " * [new branch]        codespell_fix          -> origin/codespell_fix\n",
+      "   16fb4149..c9d3baf4  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
+      " * [new branch]        fea-sok-load-dump      -> origin/fea-sok-load-dump\n",
+      "   95462360..28fb60ad  gh-pages               -> origin/gh-pages\n",
+      " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      "   835ad186..a5ac5668  main                   -> origin/main\n",
+      " * [new branch]        mtl_example            -> origin/mtl_example\n",
+      "   cb431a8a..b90e9a1b  release-22.12          -> origin/release-22.12\n",
+      " * [new branch]        release-23.02          -> origin/release-23.02\n",
+      " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]        tf/dataloader_changes  -> origin/tf/dataloader_changes\n",
+      " * [new branch]        tf/dlrm_dropout_fix    -> origin/tf/dlrm_dropout_fix\n",
+      " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " + 169f3df5...06eecddd tf/output-block        -> origin/tf/output-block  (forced update)\n",
+      " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]        tf/quick_start_ranking -> origin/tf/quick_start_ranking\n",
+      " * [new branch]        tf/transformer-api     -> origin/tf/transformer-api\n",
+      " + 0a65d603...9f53e8ff update_07              -> origin/update_07  (forced update)\n",
+      " * [new tag]           v23.02.00              -> v23.02.00\n",
+      "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
+      "HEAD is now at a86201ee add masking support to SequencePredictRandom transform\n"
      ]
     },
     {
@@ -40,76 +49,77 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==0.9.0+116.ga92bdc24) (0.0.2+41.gdbf8816)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==0.9.0+116.ga92bdc24) (0.9.0+54.g29c7587a)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.5)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.56.4)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7.1)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.5.0)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (22.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.64.1)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.12.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.19.6)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.2.5)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (8.0.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.8.2)\n",
-      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.22.4)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2022.7)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (5.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.12.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.4.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.7.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.1)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.4)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (8.1.3)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.2.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.26.13)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (5.9.4)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.1.2)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.3.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.2.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.14.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (2.1.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0.4)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (4.0.0)\n"
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.10.0)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.0.4)\n",
+      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.12.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.19.6)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.64.1)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (22.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.1.3)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.12.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.1.2)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.39.1)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.14.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.4)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.11.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==0.9.0+116.ga92bdc24) (6.0.1)\n",
       "Building wheels for collected packages: merlin-models\n",
       "  Building wheel for merlin-models (PEP 517): started\n",
       "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-0.9.0+116.ga92bdc24-py3-none-any.whl size=374626 sha256=0b09335e9fef4f6221003e7ba9eb2e1e24b4bfdfd433c8211c5ea32aa2856aed\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-168j85q4/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=7566d7a4a90814a6adae96ac4566fa227e750c3301334ed8ae3c852608af406f\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-naqyczcx/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
       "Successfully built merlin-models\n",
       "Installing collected packages: merlin-models\n",
       "  Attempting uninstall: merlin-models\n",
-      "    Found existing installation: merlin-models 0.9.0+114.g20a40d72\n",
-      "    Uninstalling merlin-models-0.9.0+114.g20a40d72:\n",
-      "      Successfully uninstalled merlin-models-0.9.0+114.g20a40d72\n",
-      "Successfully installed merlin-models-0.9.0+116.ga92bdc24\n"
+      "    Found existing installation: merlin-models 0.11.0\n",
+      "    Uninstalling merlin-models-0.11.0:\n",
+      "      Successfully uninstalled merlin-models-0.11.0\n",
+      "Successfully installed merlin-models-23.2.0+7.ga86201ee\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Already on 'main'\n"
+      "Previous HEAD position was 2fc6889 add schema parameter to the `repartition` method (#192)\n",
+      "Switched to branch 'main'\n"
      ]
     },
     {
@@ -124,14 +134,131 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/core\n",
-      " * branch              main       -> FETCH_HEAD\n"
+      " * branch            main       -> FETCH_HEAD\n",
+      "   cd96ca5f..2d60d237 main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Already up to date.\n",
+      "Updating cd96ca5f..2d60d237\n",
+      "Fast-forward\n",
+      " .github/release-drafter.yml                        |  44 +--\n",
+      " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
+      " .../ISSUE_TEMPLATE/documentation-request.md        |  12 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
+      " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
+      " .github/workflows/cpu-ci.yml                       | 145 +++-------\n",
+      " .github/workflows/cpu-models.yml                   |  52 ++--\n",
+      " .github/workflows/cpu-nvtabular.yml                |  52 ++--\n",
+      " .github/workflows/cpu-packages.yml                 | 126 +++++++++\n",
+      " .github/workflows/cpu-systems.yml                  |  52 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 +-\n",
+      " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .pre-commit-config.yaml                            |  55 ++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |  28 +-\n",
+      " README.md                                          |  68 ++---\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " docs/README.md                                     |  49 ++--\n",
+      " merlin/core/compat.py                              |  59 +++-\n",
+      " merlin/core/dispatch.py                            |  51 +++-\n",
+      " merlin/dag/__init__.py                             |   1 +\n",
+      " merlin/dag/base_operator.py                        |  30 +-\n",
+      " merlin/dag/dictarray.py                            |   3 +-\n",
+      " merlin/dag/executors.py                            | 107 ++++---\n",
+      " merlin/dag/graph.py                                |  20 ++\n",
+      " merlin/dag/node.py                                 |   2 +-\n",
+      " merlin/dag/utils.py                                |  69 +++++\n",
+      " merlin/dispatch/lazy.py                            | 152 ++++++++++\n",
+      " merlin/dtypes/__init__.py                          |  60 ++++\n",
+      " merlin/dtypes/aliases.py                           |  52 ++++\n",
+      " merlin/dtypes/base.py                              | 178 ++++++++++++\n",
+      " merlin/dtypes/mapping.py                           | 173 ++++++++++++\n",
+      " merlin/dtypes/mappings/__init__.py                 |  18 ++\n",
+      " merlin/dtypes/mappings/cudf.py                     |  57 ++++\n",
+      " merlin/dtypes/mappings/numpy.py                    |  52 ++++\n",
+      " merlin/dtypes/mappings/pandas.py                   |  38 +++\n",
+      " merlin/dtypes/mappings/python.py                   |  31 ++\n",
+      " merlin/dtypes/mappings/tf.py                       |  52 ++++\n",
+      " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
+      " merlin/dtypes/mappings/triton.py                   |  53 ++++\n",
+      " merlin/dtypes/registry.py                          | 142 ++++++++++\n",
+      " merlin/dtypes/shape.py                             | 183 ++++++++++++\n",
+      " merlin/io/avro.py                                  |   4 -\n",
+      " merlin/io/csv.py                                   |   1 -\n",
+      " merlin/io/dask.py                                  |   6 +-\n",
+      " merlin/io/dataset.py                               |  19 +-\n",
+      " merlin/io/fsspec_utils.py                          |   8 +-\n",
+      " merlin/io/parquet.py                               |   8 -\n",
+      " merlin/io/writer.py                                |   1 -\n",
+      " merlin/schema/io/tensorflow_metadata.py            |  86 +++---\n",
+      " merlin/schema/schema.py                            | 312 ++++++++++++---------\n",
+      " merlin/schema/tags.py                              |   1 +\n",
+      " merlin/table/__init__.py                           |  24 ++\n",
+      " merlin/table/conversions.py                        | 135 +++++++++\n",
+      " merlin/table/cupy_column.py                        |  92 ++++++\n",
+      " merlin/table/numpy_column.py                       | 100 +++++++\n",
+      " merlin/table/tensor_column.py                      | 217 ++++++++++++++\n",
+      " merlin/table/tensor_table.py                       | 222 +++++++++++++++\n",
+      " merlin/table/tensorflow_column.py                  | 159 +++++++++++\n",
+      " merlin/table/torch_column.py                       | 124 ++++++++\n",
+      " requirements.txt                                   |   5 +-\n",
+      " tests/conftest.py                                  |  16 +-\n",
+      " tests/unit/core/test_dispatch.py                   |  19 ++\n",
+      " tests/unit/core/test_version.py                    |   4 +\n",
+      " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
+      " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
+      " tests/unit/dtypes/test_module.py                   |  48 ++++\n",
+      " tests/unit/dtypes/test_shape.py                    | 222 +++++++++++++++\n",
+      " tests/unit/io/test_io.py                           |  27 +-\n",
+      " tests/unit/schema/test_column_schemas.py           | 142 ++++++----\n",
+      " tests/unit/schema/test_schema.py                   |  22 +-\n",
+      " tests/unit/schema/test_schema_io.py                |  27 +-\n",
+      " tests/unit/table/test_convert_column.py            |  75 +++++\n",
+      " tests/unit/table/test_tensor_column.py             | 186 ++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 311 ++++++++++++++++++++\n",
+      " tests/unit/utils/test_utils.py                     |   3 -\n",
+      " tox.ini                                            |   4 +\n",
+      " 81 files changed, 4441 insertions(+), 674 deletions(-)\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/dag/utils.py\n",
+      " create mode 100644 merlin/dispatch/lazy.py\n",
+      " create mode 100644 merlin/dtypes/__init__.py\n",
+      " create mode 100644 merlin/dtypes/aliases.py\n",
+      " create mode 100644 merlin/dtypes/base.py\n",
+      " create mode 100644 merlin/dtypes/mapping.py\n",
+      " create mode 100644 merlin/dtypes/mappings/__init__.py\n",
+      " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
+      " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
+      " create mode 100644 merlin/dtypes/mappings/python.py\n",
+      " create mode 100644 merlin/dtypes/mappings/tf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/torch.py\n",
+      " create mode 100644 merlin/dtypes/mappings/triton.py\n",
+      " create mode 100644 merlin/dtypes/registry.py\n",
+      " create mode 100644 merlin/dtypes/shape.py\n",
+      " create mode 100644 merlin/table/__init__.py\n",
+      " create mode 100644 merlin/table/conversions.py\n",
+      " create mode 100644 merlin/table/cupy_column.py\n",
+      " create mode 100644 merlin/table/numpy_column.py\n",
+      " create mode 100644 merlin/table/tensor_column.py\n",
+      " create mode 100644 merlin/table/tensor_table.py\n",
+      " create mode 100644 merlin/table/tensorflow_column.py\n",
+      " create mode 100644 merlin/table/torch_column.py\n",
+      " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
+      " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
+      " create mode 100644 tests/unit/dtypes/test_module.py\n",
+      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
+      " create mode 100644 tests/unit/table/test_convert_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_table.py\n",
       "Processing /core\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -139,68 +266,76 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.12.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (3.19.6)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (22.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (0.56.4)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.7.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.3.5)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.7.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (8.0.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (2022.5.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+54.g29c7587a) (1.2.5)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.3.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (45.2.0)\n",
-      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (1.22.4)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (5.2.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (5.9.4)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (0.12.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (6.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (6.1)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (8.1.3)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.7.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.26.13)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.4.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (3.1.2)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (2022.7)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.3.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (1.2.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+54.g29c7587a) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+54.g29c7587a) (2.1.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+54.g29c7587a) (1.14.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (6.0.4)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+54.g29c7587a) (6.0.1)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (11.4.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (8.0.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (4.64.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (22.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.5.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (0.56.4)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (3.19.6)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.3.5)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.2.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.12.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.0)\n",
+      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core==0.9.0+60.g2d60d237) (1.22.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.4)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (8.1.3)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.7.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.1)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (3.1.2)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (5.9.4)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.26.13)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.4.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (0.39.1)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2.8.2)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (1.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.57.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.14.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.4)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.1)\n",
       "Building wheels for collected packages: merlin-core\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+54.g29c7587a-py3-none-any.whl size=152409 sha256=cf0f970219f2ae5dcae772911442f0366c3b3400aaac27967ba709e9c9ac1a22\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zn63nwq_/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+60.g2d60d237-py3-none-any.whl size=152708 sha256=ff70b25964dafa4162daf96e739c4866570e8eec2aa70c8b1f38049656b6b486\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-xyk5t8ph/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
       "Successfully built merlin-core\n",
       "Installing collected packages: merlin-core\n",
       "  Attempting uninstall: merlin-core\n",
-      "    Found existing installation: merlin-core 0.9.0+54.g29c7587a\n",
-      "    Uninstalling merlin-core-0.9.0+54.g29c7587a:\n",
-      "      Successfully uninstalled merlin-core-0.9.0+54.g29c7587a\n",
-      "Successfully installed merlin-core-0.9.0+54.g29c7587a\n"
+      "    Found existing installation: merlin-core 0.10.0\n",
+      "    Uninstalling merlin-core-0.10.0:\n",
+      "      Successfully uninstalled merlin-core-0.10.0\n",
+      "Successfully installed merlin-core-0.9.0+60.g2d60d237\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Already on 'main'\n"
+      "Previous HEAD position was 020b24b7 Fix output error occurring due to  check if it is a dict or not (#1742)\n",
+      "Switched to branch 'main'\n"
      ]
     },
     {
@@ -215,14 +350,88 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/NVTabular\n",
-      " * branch              main       -> FETCH_HEAD\n"
+      " * branch              main       -> FETCH_HEAD\n",
+      "   c5bc4098..9b186ee9  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Already up to date.\n",
+      "Updating c5bc4098..9b186ee9\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug_report.md               |  11 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/feature_request.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/operator_request.md         |  14 +-\n",
+      " .github/ISSUE_TEMPLATE/research_question.md        |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   4 +-\n",
+      " .github/release-drafter.yml                        |  44 ++--\n",
+      " .github/workflows/blossom-ci.yml                   | 230 ++++++++++-----------\n",
+      " .github/workflows/conda-env-create.yml             |  30 +--\n",
+      " .github/workflows/cpu-ci.yml                       | 138 -------------\n",
+      " .github/workflows/cpu-packages.yml                 | 132 ++++++++++++\n",
+      " .github/workflows/cpu-tests.yml                    |  69 +++++++\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   6 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 ---\n",
+      " .github/workflows/gpu-tests.yml                    |  30 +++\n",
+      " .gitlab-ci.yml                                     |  23 +--\n",
+      " .pre-commit-config.yaml                            |  47 +++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CHANGELOG.md                                       | 187 ++++++++---------\n",
+      " CONTRIBUTING.md                                    |  30 +--\n",
+      " README.md                                          |  48 ++---\n",
+      " bench/datasets/tools/train_tensorflow.py           |   1 -\n",
+      " bench/examples/MultiGPUBench.md                    |  67 +++---\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " conda/environments/nvtabular_aws_sagemaker.yml     |   2 +-\n",
+      " docs/README.md                                     |  18 +-\n",
+      " docs/source/core_features.md                       |  48 ++---\n",
+      " docs/source/resources/architecture.md              |  17 +-\n",
+      " docs/source/resources/cloud_integration.md         |  24 ++-\n",
+      " docs/source/resources/links.md                     |  40 ++--\n",
+      " docs/source/toc.yaml                               |  12 +-\n",
+      " examples/01-Getting-started.ipynb                  |   5 +-\n",
+      " examples/02-Advanced-NVTabular-workflow.ipynb      |   5 +-\n",
+      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |   5 +-\n",
+      " examples/README.md                                 |   1 +\n",
+      " nvtabular/inference/__init__.py                    |   4 +-\n",
+      " nvtabular/inference/triton/ensemble.py             |  86 ++------\n",
+      " nvtabular/inference/triton/model/model_pt.py       |   1 -\n",
+      " nvtabular/inference/workflow/hugectr.py            |   2 +-\n",
+      " nvtabular/loader/backend.py                        |  31 +--\n",
+      " nvtabular/loader/tensorflow.py                     |   1 +\n",
+      " nvtabular/ops/categorify.py                        |   2 -\n",
+      " nvtabular/ops/groupby.py                           |  35 ++--\n",
+      " nvtabular/ops/join_external.py                     |   1 -\n",
+      " nvtabular/ops/join_groupby.py                      |  18 +-\n",
+      " nvtabular/ops/list_slice.py                        |  22 +-\n",
+      " nvtabular/ops/moments.py                           |   2 -\n",
+      " nvtabular/ops/reduce_dtype_size.py                 |   9 +-\n",
+      " nvtabular/ops/value_counts.py                      |  14 +-\n",
+      " nvtabular/workflow/workflow.py                     | 113 +++++++++-\n",
+      " requirements-test.txt                              |   2 -\n",
+      " requirements/test.txt                              |   3 +-\n",
+      " setup.py                                           |   5 +\n",
+      " tests/conftest.py                                  |   1 -\n",
+      " .../test_02-Advanced-NVTabular-workflow.py         |  12 +-\n",
+      " tests/unit/ops/test_column_similarity.py           |   1 -\n",
+      " tests/unit/ops/test_groupyby.py                    |   2 +-\n",
+      " tests/unit/ops/test_lambda.py                      |  28 ++-\n",
+      " tests/unit/ops/test_ops_schema.py                  |  25 ++-\n",
+      " tests/unit/ops/test_value_count.py                 |   2 +\n",
+      " tests/unit/workflow/test_workflow.py               |  75 ++++++-\n",
+      " tox.ini                                            |   9 +-\n",
+      " 64 files changed, 1056 insertions(+), 786 deletions(-)\n",
+      " delete mode 100644 .github/workflows/cpu-ci.yml\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .github/workflows/cpu-tests.yml\n",
+      " delete mode 100644 .github/workflows/gpu-ci.yml\n",
+      " create mode 100644 .github/workflows/gpu-tests.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " delete mode 100644 requirements-test.txt\n",
       "Processing /nvtabular\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -230,69 +439,70 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+54.g29c7587a)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+60.g2d60d237)\n",
       "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.2+41.gdbf8816)\n",
       "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
       "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
       "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
       "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
       "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
       "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
       "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
       "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
       "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
       "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
       "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
       "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=20845f4d83c616304250353b73943fa82e251b9514cbd62b7387b83a6d21efe8\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-dt3f85gj/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=7731e40e8914024a9c9ea9abe993404858d29604ae832237d2a69c1675161f23\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-18ktqhn2/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
       "Installing collected packages: nvtabular\n",
       "  Attempting uninstall: nvtabular\n",
-      "    Found existing installation: nvtabular 1.6.0+42.g9b186ee9\n",
-      "    Uninstalling nvtabular-1.6.0+42.g9b186ee9:\n",
-      "      Successfully uninstalled nvtabular-1.6.0+42.g9b186ee9\n",
+      "    Found existing installation: nvtabular 1.8.0\n",
+      "    Uninstalling nvtabular-1.8.0:\n",
+      "      Successfully uninstalled nvtabular-1.8.0\n",
       "Successfully installed nvtabular-1.6.0+42.g9b186ee9\n"
      ]
     },
@@ -300,7 +510,8 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Already on 'main'\n"
+      "Previous HEAD position was feaf748 adding async tf strategy for gpu memory (#264)\n",
+      "Switched to branch 'main'\n"
      ]
     },
     {
@@ -315,14 +526,90 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/systems\n",
-      " * branch            main       -> FETCH_HEAD\n"
+      " * branch            main       -> FETCH_HEAD\n",
+      "   20bb231..329cba4  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Already up to date.\n",
+      "Updating 20bb231..329cba4\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug-report.md               |  17 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |  12 +-\n",
+      " .github/ISSUE_TEMPLATE/feature-request.md          |   5 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   5 +-\n",
+      " .github/release-drafter.yml                        |  44 +-\n",
+      " .github/workflows/cpu-ci.yml                       | 112 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  32 +-\n",
+      " .github/workflows/lint.yaml                        |  12 +-\n",
+      " .github/workflows/release-drafter.yml              |   2 +-\n",
+      " .pre-commit-config.yaml                            |  71 +-\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |   2 +-\n",
+      " README.md                                          |   2 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " docs/README.md                                     |  53 +-\n",
+      " ...ing-An-Implicit-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...ving-An-XGboost-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...erving-Ranking-Models-With-Merlin-Systems.ipynb |   5 +-\n",
+      " merlin/systems/dag/dictarray.py                    |   4 +-\n",
+      " merlin/systems/dag/op_runner.py                    |   1 -\n",
+      " merlin/systems/dag/ops/__init__.py                 |  11 +-\n",
+      " merlin/systems/dag/ops/faiss.py                    |   4 +-\n",
+      " merlin/systems/dag/ops/feast.py                    |  80 +--\n",
+      " merlin/systems/dag/ops/fil.py                      |   4 +-\n",
+      " merlin/systems/dag/ops/implicit.py                 |  72 +-\n",
+      " merlin/systems/dag/ops/operator.py                 | 189 +-----\n",
+      " merlin/systems/dag/ops/pytorch.py                  |   4 +-\n",
+      " merlin/systems/dag/ops/session_filter.py           |   4 +-\n",
+      " merlin/systems/dag/ops/softmax_sampling.py         |  17 +-\n",
+      " merlin/systems/dag/ops/unroll_features.py          |   4 +-\n",
+      " merlin/systems/dag/ops/workflow.py                 |   4 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/implicit.py | 185 ++++++\n",
+      " merlin/systems/dag/runtimes/triton/ops/operator.py | 169 ++++-\n",
+      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |   2 +-\n",
+      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  12 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 141 +++-\n",
+      " merlin/systems/dag/runtimes/triton/runtime.py      |  14 +-\n",
+      " merlin/systems/triton/__init__.py                  |  33 +-\n",
+      " merlin/systems/triton/export.py                    | 724 +--------------------\n",
+      " merlin/systems/triton/models/executor_model.py     |  34 +-\n",
+      " merlin/systems/triton/models/oprunner_model.py     |  32 +-\n",
+      " merlin/systems/triton/models/pytorch_model.py      | 127 ++--\n",
+      " merlin/systems/triton/models/workflow_model.py     |  50 +-\n",
+      " merlin/systems/triton/utils.py                     |  35 +-\n",
+      " tests/conftest.py                                  |   4 +-\n",
+      " ...erving_an_implicit_model_with_merlin_systems.py |   4 +-\n",
+      " ...serving_an_xgboost_model_with_merlin_systems.py |   4 +-\n",
+      " tests/unit/systems/dag/ops/test_ops.py             |  20 +-\n",
+      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |   2 +-\n",
+      " .../triton/ops/fil/test_lightgbm_triton.py         |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_sklearn_triton.py |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   4 +-\n",
+      " .../dag/runtimes/triton/ops/torch/test_op.py       |   4 +-\n",
+      " .../runtimes/triton/ops/workflow/test_ensemble.py  |  67 +-\n",
+      " .../systems/dag/runtimes/triton/test_triton.py     |   4 +-\n",
+      " tests/unit/systems/dag/test_dict_array.py          |   4 +-\n",
+      " tests/unit/systems/dag/test_executors.py           |   4 +-\n",
+      " tests/unit/systems/ops/faiss/test_executor.py      |   4 +-\n",
+      " tests/unit/systems/ops/feast/test_op.py            |  46 +-\n",
+      " tests/unit/systems/ops/fil/test_ensemble.py        |   4 +-\n",
+      " tests/unit/systems/ops/implicit/test_executor.py   |   4 +-\n",
+      " tests/unit/systems/ops/implicit/test_op.py         |  11 +-\n",
+      " tests/unit/systems/ops/tf/test_ensemble.py         |   4 +-\n",
+      " tests/unit/systems/utils/ops.py                    |   7 +-\n",
+      " tests/unit/test_export.py                          |  77 ---\n",
+      " tox.ini                                            |   1 -\n",
+      " 70 files changed, 1072 insertions(+), 1580 deletions(-)\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/systems/dag/runtimes/triton/ops/implicit.py\n",
+      " delete mode 100644 tests/unit/test_export.py\n",
       "Processing /systems\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -330,76 +617,77 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+54.g29c7587a)\n",
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
       "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
       "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
-      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite-runtime==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+60.g2d60d237)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
       "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
       "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.2+41.gdbf8816)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n"
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (11.4.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=c9ed3baf0f65ac381e50f14a63222abcbac99f78a39f4f04bd7e6828a7ed9c16\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zfooq_xi/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=ddfc752fa7ed3e5062808e4652c1d9967ac2d68ec1847cb24cfbe573a88ed6a9\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-lnbqyxql/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
-      "    Found existing installation: merlin-systems 0.7.0+61.g329cba4\n",
-      "    Uninstalling merlin-systems-0.7.0+61.g329cba4:\n",
-      "      Successfully uninstalled merlin-systems-0.7.0+61.g329cba4\n",
+      "    Found existing installation: merlin-systems 0.9.0\n",
+      "    Uninstalling merlin-systems-0.9.0:\n",
+      "      Successfully uninstalled merlin-systems-0.9.0\n",
       "Successfully installed merlin-systems-0.7.0+61.g329cba4\n"
      ]
     },
@@ -407,7 +695,8 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Already on 'main'\n"
+      "Previous HEAD position was fd5d3fc Use tf.function for list column operations (#89)\n",
+      "Switched to branch 'main'\n"
      ]
     },
     {
@@ -422,14 +711,43 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/dataloader\n",
-      " * branch            main       -> FETCH_HEAD\n"
+      " * branch            main       -> FETCH_HEAD\n",
+      "   5b3fe46..ce2215d  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Already up to date.\n",
+      "Updating 5b3fe46..ce2215d\n",
+      "Fast-forward\n",
+      " .github/workflows/cpu-ci.yml                       |  81 -----\n",
+      " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .pre-commit-config.yaml                            |  14 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |  44 +++\n",
+      " docs/README.md                                     |  28 +-\n",
+      " examples/01a-Getting-started-Tensorflow.ipynb      |   5 +-\n",
+      " examples/01b-Getting-started-Pytorch.ipynb         |   9 +-\n",
+      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 +++++++++++++++++++++\n",
+      " merlin/dataloader/jax.py                           |   3 +\n",
+      " merlin/dataloader/loader_base.py                   | 221 ++++--------\n",
+      " merlin/dataloader/ops/embeddings/embedding_op.py   |   4 +-\n",
+      " .../ops/embeddings/torch_embedding_op.py           |   4 +-\n",
+      " merlin/dataloader/tensorflow.py                    |   9 +-\n",
+      " merlin/dataloader/torch.py                         |  49 ++-\n",
+      " merlin/dataloader/utils/tf/tf_trainer.py           |   2 +-\n",
+      " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
+      " tests/unit/dataloader/test_tf_dataloader.py        |  20 +-\n",
+      " tests/unit/dataloader/test_tf_embeddings.py        |  24 +-\n",
+      " tests/unit/dataloader/test_torch_dataloader.py     |  38 +++\n",
+      " tests/unit/dataloader/test_torch_embeddings.py     |  12 +-\n",
+      " tox.ini                                            |   1 +\n",
+      " 22 files changed, 801 insertions(+), 298 deletions(-)\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
+      " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
+      " create mode 100644 tests/examples/test_multi_GPU_with_horovod_and_tensorflow.py\n",
       "Processing /dataloader\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -437,81 +755,90 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+41.gdbf8816) (0.9.0+54.g29c7587a)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.0.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.56.4)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.5.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.64.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.5)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (22.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.19.6)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.12.0)\n",
-      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.22.4)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.2.0)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.7.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.9.4)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.4.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.12.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.1)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.26.13)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.4)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (8.1.3)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.1.2)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (0.39.1)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.8.2)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.57.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.1.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (2.1.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (1.14.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+41.gdbf8816) (4.0.0)\n"
+      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+43.gce2215d) (0.9.0+60.g2d60d237)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.64.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.0.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (22.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (11.4.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.19.6)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.56.4)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.12.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.5)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.5.0)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.22.4)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.1.3)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.4.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.1.2)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.7.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.4)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.9.4)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.1)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.26.13)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.57.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.14.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.1.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.0.0)\n",
       "Building wheels for collected packages: merlin-dataloader\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+41.gdbf8816-py3-none-any.whl size=40852 sha256=60948b9af68c37dfacd1e48a9fdaaad2f9c78225e14116de0d4b643853d839bb\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-fwvmtvqd/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+43.gce2215d-py3-none-any.whl size=40867 sha256=1448516ec061e7ef5df449df29f4896705367b7602040fb55c679508f76d85a2\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ukzco8eb/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
       "Successfully built merlin-dataloader\n",
       "Installing collected packages: merlin-dataloader\n",
       "  Attempting uninstall: merlin-dataloader\n",
-      "    Found existing installation: merlin-dataloader 0.0.2+41.gdbf8816\n",
-      "    Uninstalling merlin-dataloader-0.0.2+41.gdbf8816:\n",
-      "      Successfully uninstalled merlin-dataloader-0.0.2+41.gdbf8816\n",
-      "Successfully installed merlin-dataloader-0.0.2+41.gdbf8816\n",
-      "Requirement already satisfied: matplotlib in /usr/local/lib/python3.8/dist-packages (3.7.1)\n",
-      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
-      "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (0.11.0)\n",
-      "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (4.39.0)\n",
-      "Requirement already satisfied: pillow>=6.2.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (9.4.0)\n",
-      "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
-      "Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.4.4)\n",
-      "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.0.7)\n",
+      "    Found existing installation: merlin-dataloader 0.0.4\n",
+      "    Uninstalling merlin-dataloader-0.0.4:\n",
+      "      Successfully uninstalled merlin-dataloader-0.0.4\n",
+      "Successfully installed merlin-dataloader-0.0.2+43.gce2215d\n",
+      "Collecting matplotlib\n",
+      "  Downloading matplotlib-3.7.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (9.2 MB)\n",
+      "Collecting pillow>=6.2.0\n",
+      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
       "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
-      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
+      "Collecting kiwisolver>=1.0.1\n",
+      "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
+      "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
+      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
+      "Collecting contourpy>=1.0.1\n",
+      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
+      "Collecting cycler>=0.10\n",
+      "  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)\n",
       "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
+      "Collecting fonttools>=4.22.0\n",
+      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
+      "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n",
       "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n"
+      "Installing collected packages: pillow, kiwisolver, contourpy, cycler, fonttools, matplotlib\n",
+      "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.0 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.4.0\n"
      ]
     }
    ],
@@ -528,26 +855,30 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
-   "id": "152aee86",
+   "execution_count": 2,
+   "id": "e9929dc8",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.6.4)\n",
-      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
-      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Collecting gdown\n",
+      "  Downloading gdown-4.6.4-py3-none-any.whl (14 kB)\n",
       "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
       "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
       "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
-      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n",
-      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n"
+      "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
+      "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
+      "Installing collected packages: gdown, PySocks\n",
+      "Successfully installed PySocks-1.7.1 gdown-4.6.4\n"
      ]
     },
     {
@@ -556,26 +887,41 @@
      "text": [
       "Downloading...\n",
       "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-      "To: /workspace/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:08<00:00, 5.42MB/s]\n"
+      "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.14MB/s]\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
-      "Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
-      "Hit:3 http://archive.ubuntu.com/ubuntu focal InRelease\n",
-      "Get:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
-      "Get:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Fetched 336 kB in 3s (129 kB/s)\n",
+      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [920 kB]\n",
+      "Get:3 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1017 kB]\n",
+      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:9 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:10 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:11 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2544 kB]\n",
+      "Get:12 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:13 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1998 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3019 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2134 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1312 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Fetched 26.5 MB in 10s (2574 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
       "Reading state information...\n",
       "unzip is already the newest version (6.0-25ubuntu1.1).\n",
-      "0 upgraded, 0 newly installed, 0 to remove and 83 not upgraded.\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 88 not upgraded.\n",
       "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
       "   creating: ecom_dataset/0001/\n",
       "  inflating: ecom_dataset/0001/valid.parquet  \n",
@@ -613,10 +959,8 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-08 00:23:08.749959: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
+      "2023-03-15 06:40:18.761460: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
      ]
     },
     {
@@ -630,21 +974,23 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-08 00:23:11.232785: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:11.233226: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:11.233386: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-03-15 06:40:21.081059: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:21.081515: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:21.081687: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
       "  from .autonotebook import tqdm as notebook_tqdm\n",
-      "2023-03-08 00:23:11.674938: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-03-15 06:40:21.521454: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-08 00:23:11.675977: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:11.676191: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:11.676346: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:12.417852: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:12.418073: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:12.418234: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-08 00:23:12.418351: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-08 00:23:12.418418: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+      "2023-03-15 06:40:21.522384: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:21.522595: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:21.522750: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:22.246877: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:22.247075: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:22.247224: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-03-15 06:40:22.247337: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-03-15 06:40:22.247404: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
      ]
     }
    ],
@@ -663,33 +1009,18 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
-   "id": "81e7f635",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# this is only temporary, we can align the functionality with the CI script later on\n",
-    "\n",
-    "DATA_FOLDER = os.environ.get(\n",
-    "    \"DATA_FOLDER\", \n",
-    "    'ecom_dataset/0002'\n",
-    ")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 33,
    "id": "11647dd3",
    "metadata": {},
    "outputs": [],
    "source": [
-    "train = Dataset(os.path.join(DATA_FOLDER, \"train.parquet\"))\n",
-    "valid = Dataset(os.path.join(DATA_FOLDER, \"valid.parquet\"))"
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 3,
    "id": "4ab4e0fb",
    "metadata": {},
    "outputs": [],
@@ -699,232 +1030,119 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
-   "id": "792daa9d",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>name</th>\n",
-       "      <th>tags</th>\n",
-       "      <th>dtype</th>\n",
-       "      <th>is_list</th>\n",
-       "      <th>is_ragged</th>\n",
-       "      <th>properties.value_count.min</th>\n",
-       "      <th>properties.value_count.max</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>sess_pid_seq</td>\n",
-       "      <td>()</td>\n",
-       "      <td>DType(name='int32', element_type=&lt;ElementType....</td>\n",
-       "      <td>True</td>\n",
-       "      <td>True</td>\n",
-       "      <td>0</td>\n",
-       "      <td>None</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "[{'name': 'sess_pid_seq', 'tags': set(), 'properties': {'value_count': {'min': 0, 'max': None}}, 'dtype': DType(name='int32', element_type=<ElementType.Int: 'int'>, element_size=32, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=0, max=None)))), 'is_list': True, 'is_ragged': True}]"
-      ]
-     },
-     "execution_count": 5,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "train.schema.select_by_name('sess_pid_seq')"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 4,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
    "source": [
-    "# a couple of hyperparams I took from the CI script in T4Rec\n",
+    "# a couple of starter hyperparams\n",
     "\n",
     "d_model = 192\n",
     "n_layer = 3\n",
     "n_head = 16\n",
     "batch_size = 128\n",
-    "learning_rate = 0.0006667377132554976"
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 1\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 5,
    "id": "a6ade14a",
    "metadata": {},
    "outputs": [],
    "source": [
-    "mlp_block = mm.MLPBlock(\n",
-    "                [128,d_model],\n",
-    "                activation='relu',\n",
-    "                no_activation_last_layer=True,\n",
-    "            )"
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        './',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name('sess_pid_seq')\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
-   "id": "7f15a0a0",
+   "execution_count": 6,
+   "id": "523fe2ac",
    "metadata": {},
    "outputs": [
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n"
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n",
+      "2023-03-15 06:40:28.698077: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
      ]
-    }
-   ],
-   "source": [
-    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
-    "\n",
-    "schema = TensorflowMetadata.from_proto_text_file(\n",
-    "    './',\n",
-    "    file_name='rees46_schema_modified.pbtxt'\n",
-    ").to_merlin_schema()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "id": "74ccc9a9",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "train.schema = schema"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "id": "b2aa0beb",
-   "metadata": {},
-   "outputs": [
+    },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "{'sess_pid_seq': (<tf.Tensor: shape=(45, 1), dtype=int32, numpy=\n",
-      "array([[ 1235],\n",
-      "       [ 4459],\n",
-      "       [27600],\n",
-      "       [ 3457],\n",
-      "       [ 8364],\n",
-      "       [ 7876],\n",
-      "       [ 3457],\n",
-      "       [ 1343],\n",
-      "       [  185],\n",
-      "       [  206],\n",
-      "       [  240],\n",
-      "       [  622],\n",
-      "       [ 7583],\n",
-      "       [    3],\n",
-      "       [    7],\n",
-      "       [    3],\n",
-      "       [ 4458],\n",
-      "       [ 2574],\n",
-      "       [ 5371],\n",
-      "       [ 9683],\n",
-      "       [ 8344],\n",
-      "       [ 1861],\n",
-      "       [ 6581],\n",
-      "       [  303],\n",
-      "       [  709],\n",
-      "       [ 1448],\n",
-      "       [ 1852],\n",
-      "       [ 2730],\n",
-      "       [23721],\n",
-      "       [ 3932],\n",
-      "       [14649],\n",
-      "       [ 6013],\n",
-      "       [ 5585],\n",
-      "       [ 3964],\n",
-      "       [ 1452],\n",
-      "       [ 6581],\n",
-      "       [    2],\n",
-      "       [    7],\n",
-      "       [   12],\n",
-      "       [   24],\n",
-      "       [   51],\n",
-      "       [   72],\n",
-      "       [   54],\n",
-      "       [   23],\n",
-      "       [  326]], dtype=int32)>, <tf.Tensor: shape=(5, 1), dtype=int32, numpy=\n",
-      "array([[ 8],\n",
-      "       [ 5],\n",
-      "       [ 3],\n",
-      "       [20],\n",
-      "       [ 9]], dtype=int32)>), 'sess_ccid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff785b03a0>, 'sess_csid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7ba5beb0>, 'sess_bid_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7858ca30>, 'sess_price_log_norm_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3dc0>, 'sess_relative_price_to_avg_category_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3940>, 'sess_prod_recency_days_log_norm_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d3610>, 'sess_et_hour_sin_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a2d31c0>, 'sess_et_hour_cos_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34bd90>, 'sess_et_dayofweek_sin_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34bb80>, 'sess_et_dayofweek_cos_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34b7c0>, 'sess_etime_seq': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7eff7a34b3d0>}\n"
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
      ]
-    }
-   ],
-   "source": [
-    "from merlin.loader.tensorflow import Loader\n",
-    "\n",
-    "data = train\n",
-    "dataloader = Loader(data, batch_size=5)\n",
-    "batch = next(dataloader)\n",
-    "print(batch[0])"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "e64a9c0d",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# import nvtabular as nvt\n",
-    "\n",
-    "# ops = ['sess_pid_seq'] >> nvt.ops.Categorify()\n",
-    "\n",
-    "# wf = nvt.Workflow(ops)\n",
-    "# train = wf.fit_transform(train)\n",
-    "# valid = wf.transform(valid)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 12,
-   "id": "292ef9ba",
-   "metadata": {},
-   "outputs": [
+    },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:148: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
       "  warnings.warn(\n"
      ]
     },
@@ -932,247 +1150,756 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "(128, None, 192)\n"
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 106s 145ms/step - loss: 7.4476 - recall_at_20: 0.1321 - mrr_at_20: 0.0713 - ndcg_at_20: 0.0847 - map_at_20: 0.0713 - precision_at_20: 0.0066 - regularization_loss: 0.0000e+00 - loss_batch: 7.4395\n",
+      "84/84 [==============================] - 8s 43ms/step - loss: 8.5501 - recall_at_20: 0.2267 - mrr_at_20: 0.0746 - ndcg_at_20: 0.1080 - map_at_20: 0.0746 - precision_at_20: 0.0113 - regularization_loss: 0.0000e+00 - loss_batch: 8.5600\n"
      ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.550110816955566,\n",
+       " 'recall_at_20': 0.2287944257259369,\n",
+       " 'mrr_at_20': 0.07337629050016403,\n",
+       " 'ndcg_at_20': 0.10753783583641052,\n",
+       " 'map_at_20': 0.07337629050016403,\n",
+       " 'precision_at_20': 0.011439722031354904,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 8.98563003540039}"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
     }
    ],
    "source": [
-    "batch = mm.sample_batch(train, batch_size=batch_size, include_targets=False, to_ragged=True)\n",
-    "print(input_block(batch).shape)"
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 34,
+   "id": "cd25c97a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from nvtabular.inference.triton import export_tensorflow_ensemble\n",
+    "from nvtabular import Workflow\n",
+    "from nvtabular.ops import Categorify"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 35,
-   "id": "34c739b3",
+   "id": "18476ff8",
    "metadata": {},
    "outputs": [],
    "source": [
-    "train.schema = train.schema.select_by_name('sess_pid_seq')"
+    "ops = ['sess_pid_seq'] >> Categorify()"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 36,
-   "id": "5a4c7ca3",
+   "id": "019b49e7",
    "metadata": {},
    "outputs": [],
    "source": [
-    "input_block = mm.InputBlockV2(\n",
-    "    train.schema.select_by_name('sess_pid_seq'),    \n",
-    "    embeddings=mm.Embeddings(\n",
-    "        train.schema.select_by_name('sess_pid_seq'), \n",
-    "        sequence_combiner=None,\n",
-    "        dim=d_model\n",
-    "        )\n",
-    ")"
+    "wf = Workflow(ops)"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 37,
-   "id": "14c35b2a",
+   "id": "4d519e09",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>sess_pid_seq</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>[2350, 27483, 2350, 221, 223, 450]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>[26562, 3233, 20844, 20946]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>[20611, 9566, 3411, 6358, 8434, 1282, 1218]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>[749, 476]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>[53988, 54681, 20488, 26337, 42209, 56005, 263...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>86548</th>\n",
+       "      <td>[6547, 5690]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>86549</th>\n",
+       "      <td>[20613, 30652, 20613]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>86550</th>\n",
+       "      <td>[6, 9, 6]</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>86551</th>\n",
+       "      <td>[2584, 6531, 16567, 5737, 6531, 19856, 2584, 1...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>86552</th>\n",
+       "      <td>[4793, 10632]</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>86553 rows × 1 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                            sess_pid_seq\n",
+       "0                     [2350, 27483, 2350, 221, 223, 450]\n",
+       "1                            [26562, 3233, 20844, 20946]\n",
+       "2            [20611, 9566, 3411, 6358, 8434, 1282, 1218]\n",
+       "3                                             [749, 476]\n",
+       "4      [53988, 54681, 20488, 26337, 42209, 56005, 263...\n",
+       "...                                                  ...\n",
+       "86548                                       [6547, 5690]\n",
+       "86549                              [20613, 30652, 20613]\n",
+       "86550                                          [6, 9, 6]\n",
+       "86551  [2584, 6531, 16567, 5737, 6531, 19856, 2584, 1...\n",
+       "86552                                      [4793, 10632]\n",
+       "\n",
+       "[86553 rows x 1 columns]"
+      ]
+     },
+     "execution_count": 37,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)"
+    "wf.fit_transform(train).compute()"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 38,
-   "id": "866f3249",
+   "execution_count": 48,
+   "id": "34f29750",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 110). These functions will not be directly callable after loading.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:83: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return generic_utils.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
    "source": [
-    "dense_block = mm.SequentialBlock(\n",
-    "    input_block,\n",
-    "    mlp_block,\n",
-    "    xlnet_block\n",
-    ")"
+    "model_transformer.save('t4rec_model')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 39,
-   "id": "288d08df",
+   "execution_count": 49,
+   "id": "e8cba91e",
    "metadata": {},
    "outputs": [],
    "source": [
-    "mlp_block2 = mm.MLPBlock(\n",
-    "                [128,d_model],\n",
-    "                activation='relu',\n",
-    "                no_activation_last_layer=True,\n",
-    "            )"
+    "rm -rf "
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 40,
-   "id": "064ea5ec",
+   "execution_count": 52,
+   "id": "b45e6f51",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
    "source": [
-    "prediction_task = mm.CategoricalOutput(\n",
-    "    to_call=input_block[\"categorical\"][target],\n",
-    ")"
+    "import merlin.models.tf as mm\n",
+    "import tensorflow as tf\n",
+    "tf_model_path = os.path.join('t4rec_model')\n",
+    "\n",
+    "model = tf.keras.models.load_model(tf_model_path)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 41,
-   "id": "6c008e16",
+   "execution_count": 60,
+   "id": "ff70e763",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>name</th>\n",
+       "      <th>tags</th>\n",
+       "      <th>dtype</th>\n",
+       "      <th>is_list</th>\n",
+       "      <th>is_ragged</th>\n",
+       "      <th>properties.value_count.min</th>\n",
+       "      <th>properties.value_count.max</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>()</td>\n",
+       "      <td>DType(name='int32', element_type=&lt;ElementType....</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "      <td>0</td>\n",
+       "      <td>None</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "[{'name': 'sess_pid_seq', 'tags': set(), 'properties': {'value_count': {'min': 0, 'max': None}}, 'dtype': DType(name='int32', element_type=<ElementType.Int: 'int'>, element_size=32, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=0, max=None)))), 'is_list': True, 'is_ragged': True}]"
+      ]
+     },
+     "execution_count": 60,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)"
+    "wf.input_schema"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 42,
-   "id": "49b12d31",
+   "execution_count": 61,
+   "id": "fc365607",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>name</th>\n",
+       "      <th>tags</th>\n",
+       "      <th>dtype</th>\n",
+       "      <th>is_list</th>\n",
+       "      <th>is_ragged</th>\n",
+       "      <th>properties.num_buckets</th>\n",
+       "      <th>properties.freq_threshold</th>\n",
+       "      <th>properties.max_size</th>\n",
+       "      <th>properties.start_index</th>\n",
+       "      <th>properties.cat_path</th>\n",
+       "      <th>properties.domain.min</th>\n",
+       "      <th>properties.domain.max</th>\n",
+       "      <th>properties.domain.name</th>\n",
+       "      <th>properties.embedding_sizes.cardinality</th>\n",
+       "      <th>properties.embedding_sizes.dimension</th>\n",
+       "      <th>properties.value_count.min</th>\n",
+       "      <th>properties.value_count.max</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>(Tags.CATEGORICAL)</td>\n",
+       "      <td>DType(name='int64', element_type=&lt;ElementType....</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "      <td>None</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>.//categories/unique.sess_pid_seq.parquet</td>\n",
+       "      <td>0</td>\n",
+       "      <td>56582</td>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>56583</td>\n",
+       "      <td>512</td>\n",
+       "      <td>0</td>\n",
+       "      <td>None</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "[{'name': 'sess_pid_seq', 'tags': {<Tags.CATEGORICAL: 'categorical'>}, 'properties': {'num_buckets': None, 'freq_threshold': 0, 'max_size': 0, 'start_index': 0, 'cat_path': './/categories/unique.sess_pid_seq.parquet', 'domain': {'min': 0, 'max': 56582, 'name': 'sess_pid_seq'}, 'embedding_sizes': {'cardinality': 56583, 'dimension': 512}, 'value_count': {'min': 0, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=0, max=None)))), 'is_list': True, 'is_ragged': True}]"
+      ]
+     },
+     "execution_count": 61,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "optimizer = tf.keras.optimizers.Adam(\n",
-    "    learning_rate=learning_rate,\n",
-    ")"
+    "wf.output_schema"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 43,
-   "id": "502ef8a3",
+   "execution_count": 62,
+   "id": "f7a09453",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>name</th>\n",
+       "      <th>tags</th>\n",
+       "      <th>dtype</th>\n",
+       "      <th>is_list</th>\n",
+       "      <th>is_ragged</th>\n",
+       "      <th>properties.domain.min</th>\n",
+       "      <th>properties.domain.max</th>\n",
+       "      <th>properties.domain.name</th>\n",
+       "      <th>properties.value_count.min</th>\n",
+       "      <th>properties.value_count.max</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>(Tags.CATEGORICAL, Tags.LIST, Tags.ITEM_ID, Ta...</td>\n",
+       "      <td>DType(name='int64', element_type=&lt;ElementType....</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1</td>\n",
+       "      <td>390000</td>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>2.0</td>\n",
+       "      <td>None</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "[{'name': 'sess_pid_seq', 'tags': {<Tags.CATEGORICAL: 'categorical'>, <Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.ID: 'id'>, <Tags.ITEM: 'item'>}, 'properties': {'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2.0, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0.0, max=None), Dimension(min=2.0, max=None)))), 'is_list': True, 'is_ragged': True}]"
+      ]
+     },
+     "execution_count": 62,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "n_epoch = 1"
+    "model.input_schema"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 44,
-   "id": "d84a30d3",
+   "execution_count": 80,
+   "id": "88942e7d",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "List(\n",
+       "  (0): 'sess_pid_seq/categorical_output'\n",
+       ")"
+      ]
+     },
+     "execution_count": 80,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
-    "              metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[4])\n",
-    "             )"
+    "model.output_names"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
-   "id": "9a9611ab",
+   "execution_count": 68,
+   "id": "5bd66ba8",
    "metadata": {},
    "outputs": [],
    "source": [
-    "# model_transformer.fit(\n",
-    "#     train,\n",
-    "#     batch_size=batch_size,\n",
-    "#     epochs=n_epoch,\n",
-    "#     pre=mm.SequencePredictRandom(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    "# )"
+    "from merlin.systems.dag.ops.workflow import TransformWorkflow\n",
+    "from merlin.systems.dag.ops.tensorflow import PredictTensorflow\n",
+    "\n",
+    "serving_operators = wf.input_schema.column_names >> TransformWorkflow(wf) >> PredictTensorflow(model)\n",
+    "\n",
+    "# serving_operators = model.input_schema.column_names >> PredictTensorflow(model)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 46,
-   "id": "e7474131",
+   "execution_count": 82,
+   "id": "3cc747e5",
    "metadata": {},
    "outputs": [
     {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model_2/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_2/sequential_block_12/xl_net_block_2/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
+     "ename": "ImportError",
+     "evalue": "cannot import name 'PredictTensorflowTriton' from 'merlin.systems.dag.ops.tensorflow' (/usr/local/lib/python3.8/dist-packages/merlin/systems/dag/ops/tensorflow.py)",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mImportError\u001b[0m                               Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[82], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01msystems\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdag\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mops\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtensorflow\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m PredictTensorflowTriton\n",
+      "\u001b[0;31mImportError\u001b[0m: cannot import name 'PredictTensorflowTriton' from 'merlin.systems.dag.ops.tensorflow' (/usr/local/lib/python3.8/dist-packages/merlin/systems/dag/ops/tensorflow.py)"
      ]
-    },
+    }
+   ],
+   "source": [
+    "from merlin.systems.dag.ops.tensorflow import PredictTensorflowTriton"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 75,
+   "id": "b66ab2b8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "predict_op = PredictTensorflow(model)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 81,
+   "id": "a26dca88",
+   "metadata": {},
+   "outputs": [
     {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "665/665 [==============================] - 74s 107ms/step - loss: 8.9015 - recall_at_4: 0.0224 - mrr_at_4: 0.0129 - ndcg_at_4: 0.0153 - map_at_4: 0.0129 - precision_at_4: 0.0056 - regularization_loss: 0.0000e+00 - loss_batch: 8.8957\n"
+     "ename": "NotImplementedError",
+     "evalue": "Exporting an operator to run in a particular context (i.e. Triton) only makres sense when a runtime is specified. To select an operator for the appropriate runtime, replace PredictTensorflowwith a runtime-specific operator class, possibly PredictTensorflowTriton",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mNotImplementedError\u001b[0m                       Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[81], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m \u001b[43mpredict_op\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mexport\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43m/workspace/models_for_benchmarking\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmodel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minput_schema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmodel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minput_schema\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/systems/dag/ops/operator.py:107\u001b[0m, in \u001b[0;36mInferenceOperator.export\u001b[0;34m(self, path, input_schema, output_schema, params, node_id, version, backend)\u001b[0m\n\u001b[1;32m     71\u001b[0m \u001b[38;5;129m@abstractmethod\u001b[39m\n\u001b[1;32m     72\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mexport\u001b[39m(\n\u001b[1;32m     73\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m     80\u001b[0m     backend: \u001b[38;5;28mstr\u001b[39m \u001b[38;5;241m=\u001b[39m \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mensemble\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[1;32m     81\u001b[0m ):\n\u001b[1;32m     82\u001b[0m     \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m     83\u001b[0m \u001b[38;5;124;03m    Export the class object as a config and all related files to the user defined path.\u001b[39;00m\n\u001b[1;32m     84\u001b[0m \n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    105\u001b[0m \u001b[38;5;124;03m        A list of individual configs for each step (operator) in graph.\u001b[39;00m\n\u001b[1;32m    106\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 107\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mNotImplementedError\u001b[39;00m(\n\u001b[1;32m    108\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mExporting an operator to run in a particular context (i.e. Triton)\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    109\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m only makres sense when a runtime is specified. To select an \u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    110\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124moperator for the appropriate runtime, replace \u001b[39m\u001b[38;5;132;01m{\u001b[39;00m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__class__\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__name__\u001b[39m\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    111\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mwith a runtime-specific operator class, possibly \u001b[39m\u001b[38;5;132;01m{\u001b[39;00m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__class__\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__name__\u001b[39m\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124mTriton\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    112\u001b[0m     )\n",
+      "\u001b[0;31mNotImplementedError\u001b[0m: Exporting an operator to run in a particular context (i.e. Triton) only makres sense when a runtime is specified. To select an operator for the appropriate runtime, replace PredictTensorflowwith a runtime-specific operator class, possibly PredictTensorflowTriton"
      ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "<keras.callbacks.History at 0x7efd2854ff70>"
-      ]
-     },
-     "execution_count": 46,
-     "metadata": {},
-     "output_type": "execute_result"
     }
    ],
    "source": [
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")"
+    "predict_op.export('/workspace/models_for_benchmarking', model.input_schema, model.input_schema)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 47,
-   "id": "7bf839e3",
+   "execution_count": 69,
+   "id": "cd23a561",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "ename": "ValueError",
+     "evalue": "Output column 'sess_pid_seq' not detected in any child inputs for 'TransformWorkflow'.",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[69], line 3\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01msystems\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdag\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mensemble\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Ensemble\n\u001b[0;32m----> 3\u001b[0m ensemble \u001b[38;5;241m=\u001b[39m \u001b[43mEnsemble\u001b[49m\u001b[43m(\u001b[49m\u001b[43mserving_operators\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mwf\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minput_schema\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m      5\u001b[0m ens_conf, node_confs \u001b[38;5;241m=\u001b[39m ensemble\u001b[38;5;241m.\u001b[39mexport(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m/workspace/models_for_benchmarking/ensemble\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/systems/dag/ensemble.py:48\u001b[0m, in \u001b[0;36mEnsemble.__init__\u001b[0;34m(self, ops, schema, label_columns)\u001b[0m\n\u001b[1;32m     36\u001b[0m \u001b[38;5;124;03m\"\"\"Construct a systems ensemble.\u001b[39;00m\n\u001b[1;32m     37\u001b[0m \n\u001b[1;32m     38\u001b[0m \u001b[38;5;124;03mParameters\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m     45\u001b[0m \u001b[38;5;124;03m    List of strings representing label columns, by default None\u001b[39;00m\n\u001b[1;32m     46\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m     47\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mgraph \u001b[38;5;241m=\u001b[39m Graph(ops)\n\u001b[0;32m---> 48\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mgraph\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mconstruct_schema\u001b[49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m     49\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mlabel_columns \u001b[38;5;241m=\u001b[39m label_columns \u001b[38;5;129;01mor\u001b[39;00m []\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dag/graph.py:110\u001b[0m, in \u001b[0;36mGraph.construct_schema\u001b[0;34m(self, root_schema, preserve_dtypes)\u001b[0m\n\u001b[1;32m    107\u001b[0m nodes \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mlist\u001b[39m(postorder_iter_nodes(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39moutput_node))\n\u001b[1;32m    109\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_compute_node_schemas(root_schema, nodes, preserve_dtypes)\n\u001b[0;32m--> 110\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_node_schemas\u001b[49m\u001b[43m(\u001b[49m\u001b[43mroot_schema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mnodes\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mpreserve_dtypes\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    112\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dag/graph.py:120\u001b[0m, in \u001b[0;36mGraph._validate_node_schemas\u001b[0;34m(self, root_schema, nodes, strict_dtypes)\u001b[0m\n\u001b[1;32m    118\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m_validate_node_schemas\u001b[39m(\u001b[38;5;28mself\u001b[39m, root_schema, nodes, strict_dtypes\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mFalse\u001b[39;00m):\n\u001b[1;32m    119\u001b[0m     \u001b[38;5;28;01mfor\u001b[39;00m node \u001b[38;5;129;01min\u001b[39;00m nodes:\n\u001b[0;32m--> 120\u001b[0m         \u001b[43mnode\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mvalidate_schemas\u001b[49m\u001b[43m(\u001b[49m\u001b[43mroot_schema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mstrict_dtypes\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mstrict_dtypes\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/systems/dag/node.py:120\u001b[0m, in \u001b[0;36mInferenceNode.validate_schemas\u001b[0;34m(self, root_schema, strict_dtypes)\u001b[0m\n\u001b[1;32m    117\u001b[0m sink_col_schema \u001b[38;5;241m=\u001b[39m childrens_schema\u001b[38;5;241m.\u001b[39mget(col_name)\n\u001b[1;32m    119\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m sink_col_schema:\n\u001b[0;32m--> 120\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mValueError\u001b[39;00m(\n\u001b[1;32m    121\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mOutput column \u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;132;01m{\u001b[39;00mcol_name\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124m not detected in any \u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    122\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mchild inputs for \u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;132;01m{\u001b[39;00m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mop\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__class__\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__name__\u001b[39m\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124m.\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m    123\u001b[0m     )\n",
+      "\u001b[0;31mValueError\u001b[0m: Output column 'sess_pid_seq' not detected in any child inputs for 'TransformWorkflow'."
+     ]
+    }
+   ],
    "source": [
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)"
+    "from merlin.systems.dag.ensemble import Ensemble\n",
+    "\n",
+    "ensemble = Ensemble(serving_operators, wf.input_schema)\n",
+    "\n",
+    "ens_conf, node_confs = ensemble.export(\"/workspace/models_for_benchmarking/ensemble\")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 49,
-   "id": "15ccc448",
+   "execution_count": 73,
+   "id": "90637fc4",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "84/84 [==============================] - 8s 40ms/step - loss: 8.8326 - recall_at_4: 0.0502 - mrr_at_4: 0.0319 - ndcg_at_4: 0.0365 - map_at_4: 0.0319 - precision_at_4: 0.0126 - regularization_loss: 0.0000e+00 - loss_batch: 8.8396\n"
+      "\u001b[0m\u001b[01;34massets\u001b[0m/  keras_metadata.pb  saved_model.pb  \u001b[01;34mvariables\u001b[0m/\r\n"
      ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.832579612731934,\n",
-       " 'recall_at_4': 0.05087455362081528,\n",
-       " 'mrr_at_4': 0.030891483649611473,\n",
-       " 'ndcg_at_4': 0.0359138660132885,\n",
-       " 'map_at_4': 0.030891483649611473,\n",
-       " 'precision_at_4': 0.01271863840520382,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.142295837402344}"
-      ]
-     },
-     "execution_count": 49,
-     "metadata": {},
-     "output_type": "execute_result"
     }
    ],
    "source": [
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")"
+    "ls t4rec_model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "7998b835",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile /workspace/models_for_benchmarking/t4r_pytorch_pt/config.pbtxt\n",
+    "\n",
+    "name: \"t4r_pytorch_pt\"\n",
+    "input {\n",
+    "  name: \"sess_pid_seq__values\"\n",
+    "  data_type: TYPE_INT64\n",
+    "  dims: -1\n",
+    "  dims: 1\n",
+    "}\n",
+    "input {\n",
+    "  name: \"sess_pid_seq__nnzs\"\n",
+    "  data_type: TYPE_INT64\n",
+    "  dims: -1\n",
+    "  dims: 1\n",
+    "}\n",
+    "output {\n",
+    "  name: \"output\"\n",
+    "  data_type: TYPE_FP32\n",
+    "  dims: -1\n",
+    "  dims: 20\n",
+    "}\n",
+    "backend: \"python\""
    ]
   }
  ],

From 60e11afbc582760cfbcab8df8f07f707f8e7b5da Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Thu, 13 Apr 2023 17:55:27 +1000
Subject: [PATCH 09/15] update

---
 ...rain_and_save_model_for_benchmarking.ipynb | 1385 ++++++++---------
 1 file changed, 665 insertions(+), 720 deletions(-)

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
index f6f757b496..9babe53629 100644
--- a/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking.ipynb
@@ -11,27 +11,36 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * [new branch]        asvdb_metric_tracking  -> origin/asvdb_metric_tracking\n",
       " * [new branch]        ci/horovod             -> origin/ci/horovod\n",
       " * [new branch]        codespell_fix          -> origin/codespell_fix\n",
-      "   16fb4149..c9d3baf4  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
+      "   16fb4149..fcaefc3e  fea-sok-integration-wj -> origin/fea-sok-integration-wj\n",
       " * [new branch]        fea-sok-load-dump      -> origin/fea-sok-load-dump\n",
-      "   95462360..28fb60ad  gh-pages               -> origin/gh-pages\n",
+      " * [new branch]        fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
+      "   95462360..d8d85835  gh-pages               -> origin/gh-pages\n",
       " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
-      "   835ad186..a5ac5668  main                   -> origin/main\n",
+      "   835ad186..572a7b4d  main                   -> origin/main\n",
       " * [new branch]        mtl_example            -> origin/mtl_example\n",
       "   cb431a8a..b90e9a1b  release-22.12          -> origin/release-22.12\n",
       " * [new branch]        release-23.02          -> origin/release-23.02\n",
+      " * [new branch]        tf/batch_predict_fix   -> origin/tf/batch_predict_fix\n",
       " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
       " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
       " * [new branch]        tf/dataloader_changes  -> origin/tf/dataloader_changes\n",
       " * [new branch]        tf/dlrm_dropout_fix    -> origin/tf/dlrm_dropout_fix\n",
       " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]        tf/fix_logq_correction -> origin/tf/fix_logq_correction\n",
       " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
       " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
       " + 169f3df5...06eecddd tf/output-block        -> origin/tf/output-block  (forced update)\n",
       " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
       " * [new branch]        tf/quick_start_ranking -> origin/tf/quick_start_ranking\n",
       " * [new branch]        tf/transformer-api     -> origin/tf/transformer-api\n",
+      " * [new branch]        torch/dev              -> origin/torch/dev\n",
+      " * [new branch]        torch/masking          -> origin/torch/masking\n",
+      " * [new branch]        torch/remove-t4r-code  -> origin/torch/remove-t4r-code\n",
+      " * [new branch]        tox_github_actions_fix -> origin/tox_github_actions_fix\n",
+      " * [new branch]        transformer-api        -> origin/transformer-api\n",
       " + 0a65d603...9f53e8ff update_07              -> origin/update_07  (forced update)\n",
       " * [new tag]           v23.02.00              -> v23.02.00\n",
       "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
@@ -51,49 +60,49 @@
       "    Preparing wheel metadata: finished with status 'done'\n",
       "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.10.0)\n",
       "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.0.4)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
       "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.5)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.12.0)\n",
       "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.0.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.19.6)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
       "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.64.1)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.19.6)\n",
       "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (22.0)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
-      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
       "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
       "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.1.3)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
       "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.12.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
       "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.1.2)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
+      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
+      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
       "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
       "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.39.1)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.14.0)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.1.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.4)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n"
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n"
      ]
     },
     {
@@ -103,8 +112,8 @@
       "Building wheels for collected packages: merlin-models\n",
       "  Building wheel for merlin-models (PEP 517): started\n",
       "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=7566d7a4a90814a6adae96ac4566fa227e750c3301334ed8ae3c852608af406f\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-naqyczcx/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=2159f40a60054f9efe2c6fd8630406a3e376fe5efb1ade89e5a7f7a59c35b281\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-4g3nhusu/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
       "Successfully built merlin-models\n",
       "Installing collected packages: merlin-models\n",
       "  Attempting uninstall: merlin-models\n",
@@ -135,14 +144,14 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/core\n",
       " * branch            main       -> FETCH_HEAD\n",
-      "   cd96ca5f..2d60d237 main       -> origin/main\n"
+      "   cd96ca5f..dd98a436 main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating cd96ca5f..2d60d237\n",
+      "Updating cd96ca5f..dd98a436\n",
       "Fast-forward\n",
       " .github/release-drafter.yml                        |  44 +--\n",
       " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
@@ -150,37 +159,44 @@
       " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
       " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
       " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
-      " .github/workflows/cpu-ci.yml                       | 145 +++-------\n",
-      " .github/workflows/cpu-models.yml                   |  52 ++--\n",
-      " .github/workflows/cpu-nvtabular.yml                |  52 ++--\n",
-      " .github/workflows/cpu-packages.yml                 | 126 +++++++++\n",
-      " .github/workflows/cpu-systems.yml                  |  52 ++--\n",
+      " .github/workflows/cpu-ci.yml                       | 136 +--------\n",
+      " .github/workflows/cpu-models.yml                   |  44 ---\n",
+      " .github/workflows/cpu-nvtabular.yml                |  44 ---\n",
+      " .github/workflows/cpu-packages.yml                 | 126 ++++++++\n",
+      " .github/workflows/cpu-systems.yml                  |  44 ---\n",
       " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
       " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |  30 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  48 ++-\n",
+      " .github/workflows/merlin.yml                       |  35 +++\n",
       " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .github/workflows/tox.yml                          |  38 +++\n",
       " .pre-commit-config.yaml                            |  55 ++--\n",
       " .prettierignore                                    |   2 +\n",
       " CLA.md                                             |   9 +-\n",
       " CONTRIBUTING.md                                    |  28 +-\n",
       " README.md                                          |  68 ++---\n",
       " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
-      " docs/README.md                                     |  49 ++--\n",
-      " merlin/core/compat.py                              |  59 +++-\n",
-      " merlin/core/dispatch.py                            |  51 +++-\n",
+      " docs/README.md                                     |  49 +--\n",
+      " merlin/core/compat/__init__.py                     | 143 +++++++++\n",
+      " merlin/core/compat/tensorflow.py                   |  92 ++++++\n",
+      " merlin/core/compat/torch.py                        |  22 ++\n",
+      " merlin/core/dispatch.py                            | 243 ++++++++++-----\n",
+      " merlin/core/has_gpu.py                             |  46 +++\n",
+      " merlin/core/utils.py                               |  88 +-----\n",
       " merlin/dag/__init__.py                             |   1 +\n",
       " merlin/dag/base_operator.py                        |  30 +-\n",
       " merlin/dag/dictarray.py                            |   3 +-\n",
-      " merlin/dag/executors.py                            | 107 ++++---\n",
+      " merlin/dag/executors.py                            | 119 +++++---\n",
       " merlin/dag/graph.py                                |  20 ++\n",
       " merlin/dag/node.py                                 |   2 +-\n",
+      " merlin/dag/selector.py                             |   3 +\n",
       " merlin/dag/utils.py                                |  69 +++++\n",
-      " merlin/dispatch/lazy.py                            | 152 ++++++++++\n",
-      " merlin/dtypes/__init__.py                          |  60 ++++\n",
+      " merlin/dispatch/lazy.py                            | 156 ++++++++++\n",
+      " merlin/dtypes/__init__.py                          |  61 ++++\n",
       " merlin/dtypes/aliases.py                           |  52 ++++\n",
-      " merlin/dtypes/base.py                              | 178 ++++++++++++\n",
-      " merlin/dtypes/mapping.py                           | 173 ++++++++++++\n",
-      " merlin/dtypes/mappings/__init__.py                 |  18 ++\n",
+      " merlin/dtypes/base.py                              | 178 +++++++++++\n",
+      " merlin/dtypes/mapping.py                           | 173 +++++++++++\n",
+      " .../compat.py => dtypes/mappings/__init__.py}      |  17 +-\n",
       " merlin/dtypes/mappings/cudf.py                     |  57 ++++\n",
       " merlin/dtypes/mappings/numpy.py                    |  52 ++++\n",
       " merlin/dtypes/mappings/pandas.py                   |  38 +++\n",
@@ -188,53 +204,71 @@
       " merlin/dtypes/mappings/tf.py                       |  52 ++++\n",
       " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
       " merlin/dtypes/mappings/triton.py                   |  53 ++++\n",
-      " merlin/dtypes/registry.py                          | 142 ++++++++++\n",
-      " merlin/dtypes/shape.py                             | 183 ++++++++++++\n",
-      " merlin/io/avro.py                                  |   4 -\n",
-      " merlin/io/csv.py                                   |   1 -\n",
-      " merlin/io/dask.py                                  |   6 +-\n",
-      " merlin/io/dataset.py                               |  19 +-\n",
-      " merlin/io/fsspec_utils.py                          |   8 +-\n",
-      " merlin/io/parquet.py                               |   8 -\n",
-      " merlin/io/writer.py                                |   1 -\n",
-      " merlin/schema/io/tensorflow_metadata.py            |  86 +++---\n",
-      " merlin/schema/schema.py                            | 312 ++++++++++++---------\n",
+      " merlin/dtypes/registry.py                          | 142 +++++++++\n",
+      " merlin/dtypes/shape.py                             | 189 ++++++++++++\n",
+      " merlin/io/__init__.py                              |   2 +-\n",
+      " merlin/io/avro.py                                  |   6 +-\n",
+      " merlin/io/csv.py                                   |   9 +-\n",
+      " merlin/io/dask.py                                  |  74 ++++-\n",
+      " merlin/io/dataframe_engine.py                      |   6 +-\n",
+      " merlin/io/dataset.py                               | 111 +++++--\n",
+      " merlin/io/fsspec_utils.py                          |  16 +-\n",
+      " merlin/io/parquet.py                               |  25 +-\n",
+      " merlin/io/shuffle.py                               |  13 +-\n",
+      " merlin/io/worker.py                                |   7 +-\n",
+      " merlin/io/writer.py                                |   7 +-\n",
+      " merlin/io/writer_factory.py                        |  10 +-\n",
+      " merlin/schema/io/tensorflow_metadata.py            | 115 +++++---\n",
+      " merlin/schema/schema.py                            | 327 +++++++++++++--------\n",
       " merlin/schema/tags.py                              |   1 +\n",
       " merlin/table/__init__.py                           |  24 ++\n",
-      " merlin/table/conversions.py                        | 135 +++++++++\n",
-      " merlin/table/cupy_column.py                        |  92 ++++++\n",
-      " merlin/table/numpy_column.py                       | 100 +++++++\n",
-      " merlin/table/tensor_column.py                      | 217 ++++++++++++++\n",
-      " merlin/table/tensor_table.py                       | 222 +++++++++++++++\n",
-      " merlin/table/tensorflow_column.py                  | 159 +++++++++++\n",
-      " merlin/table/torch_column.py                       | 124 ++++++++\n",
-      " requirements.txt                                   |   5 +-\n",
-      " tests/conftest.py                                  |  16 +-\n",
-      " tests/unit/core/test_dispatch.py                   |  19 ++\n",
-      " tests/unit/core/test_version.py                    |   4 +\n",
+      " merlin/table/conversions.py                        | 208 +++++++++++++\n",
+      " merlin/table/cupy_column.py                        | 108 +++++++\n",
+      " merlin/table/numpy_column.py                       | 116 ++++++++\n",
+      " merlin/table/tensor_column.py                      | 261 ++++++++++++++++\n",
+      " merlin/table/tensor_table.py                       | 226 ++++++++++++++\n",
+      " merlin/table/tensorflow_column.py                  | 173 +++++++++++\n",
+      " merlin/table/torch_column.py                       | 133 +++++++++\n",
+      " requirements-gpu.txt                               |   2 +-\n",
+      " requirements.txt                                   |  13 +-\n",
+      " tests/conftest.py                                  |  35 ++-\n",
+      " tests/unit/core/test_dispatch.py                   |  43 ++-\n",
+      " tests/unit/core/test_protocols.py                  |  10 +-\n",
+      " tests/unit/core/test_version.py                    |   2 +\n",
       " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
       " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
-      " tests/unit/dtypes/test_module.py                   |  48 ++++\n",
-      " tests/unit/dtypes/test_shape.py                    | 222 +++++++++++++++\n",
-      " tests/unit/io/test_io.py                           |  27 +-\n",
-      " tests/unit/schema/test_column_schemas.py           | 142 ++++++----\n",
-      " tests/unit/schema/test_schema.py                   |  22 +-\n",
+      " tests/unit/dtypes/test_module.py                   |  48 +++\n",
+      " tests/unit/dtypes/test_shape.py                    | 222 ++++++++++++++\n",
+      " tests/unit/io/test_avro.py                         |   8 +-\n",
+      " tests/unit/io/test_dataset.py                      |  51 ++++\n",
+      " tests/unit/io/test_io.py                           |  98 ++++--\n",
+      " tests/unit/schema/test_column_schemas.py           | 142 ++++++---\n",
+      " tests/unit/schema/test_schema.py                   |  60 +++-\n",
       " tests/unit/schema/test_schema_io.py                |  27 +-\n",
-      " tests/unit/table/test_convert_column.py            |  75 +++++\n",
-      " tests/unit/table/test_tensor_column.py             | 186 ++++++++++++\n",
-      " tests/unit/table/test_tensor_table.py              | 311 ++++++++++++++++++++\n",
-      " tests/unit/utils/test_utils.py                     |   3 -\n",
-      " tox.ini                                            |   4 +\n",
-      " 81 files changed, 4441 insertions(+), 674 deletions(-)\n",
+      " tests/unit/table/test_convert_column.py            | 164 +++++++++++\n",
+      " tests/unit/table/test_tensor_column.py             | 262 +++++++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 313 ++++++++++++++++++++\n",
+      " tests/unit/utils/test_utils.py                     |  16 +-\n",
+      " tox.ini                                            |  46 ++-\n",
+      " 97 files changed, 5624 insertions(+), 1008 deletions(-)\n",
+      " delete mode 100644 .github/workflows/cpu-models.yml\n",
+      " delete mode 100644 .github/workflows/cpu-nvtabular.yml\n",
       " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " delete mode 100644 .github/workflows/cpu-systems.yml\n",
+      " create mode 100644 .github/workflows/merlin.yml\n",
+      " create mode 100644 .github/workflows/tox.yml\n",
       " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/core/compat/__init__.py\n",
+      " create mode 100644 merlin/core/compat/tensorflow.py\n",
+      " create mode 100644 merlin/core/compat/torch.py\n",
+      " create mode 100644 merlin/core/has_gpu.py\n",
       " create mode 100644 merlin/dag/utils.py\n",
       " create mode 100644 merlin/dispatch/lazy.py\n",
       " create mode 100644 merlin/dtypes/__init__.py\n",
       " create mode 100644 merlin/dtypes/aliases.py\n",
       " create mode 100644 merlin/dtypes/base.py\n",
       " create mode 100644 merlin/dtypes/mapping.py\n",
-      " create mode 100644 merlin/dtypes/mappings/__init__.py\n",
+      " rename merlin/{core/compat.py => dtypes/mappings/__init__.py} (60%)\n",
       " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
       " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
       " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
@@ -255,7 +289,14 @@
       " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
       " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
       " create mode 100644 tests/unit/dtypes/test_module.py\n",
-      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
+      " create mode 100644 tests/unit/dtypes/test_shape.py\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " create mode 100644 tests/unit/io/test_dataset.py\n",
       " create mode 100644 tests/unit/table/test_convert_column.py\n",
       " create mode 100644 tests/unit/table/test_tensor_column.py\n",
       " create mode 100644 tests/unit/table/test_tensor_table.py\n",
@@ -266,68 +307,101 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (11.4.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (8.0.0)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.7.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (4.64.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (22.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (2022.5.0)\n"
+      "Collecting distributed>=2022.11.1\n",
+      "  Downloading distributed-2023.3.2.1-py3-none-any.whl (957 kB)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (1.3.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (1.12.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (0.56.4)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (1.22.4)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (1.2.5)\n",
+      "Collecting dask-cuda>=22.12.0\n",
+      "  Downloading dask_cuda-23.4.0-py3-none-any.whl (125 kB)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (3.19.6)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (11.4.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (8.0.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (22.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+96.gdd98a436) (4.64.1)\n",
+      "Collecting fsspec>=2022.7.1\n",
+      "  Downloading fsspec-2023.4.0-py3-none-any.whl (153 kB)\n",
+      "Collecting dask>=2022.11.1\n",
+      "  Downloading dask-2023.3.2-py3-none-any.whl (1.2 MB)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (0.12.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (8.1.3)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.0.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.7.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (6.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (6.1)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (2.4.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (3.1.2)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.26.13)\n",
+      "Requirement already satisfied: zict>=2.1.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (5.9.4)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (2.2.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+96.gdd98a436) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+96.gdd98a436) (2.8.2)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+96.gdd98a436) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+96.gdd98a436) (1.3.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+96.gdd98a436) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+96.gdd98a436) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+96.gdd98a436) (0.39.1)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (0.4.3)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.3.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.1.0->distributed>=2022.11.1->merlin-core==0.9.0+96.gdd98a436) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+96.gdd98a436) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+96.gdd98a436) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (4.1.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+96.gdd98a436) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+96.gdd98a436-py3-none-any.whl size=159239 sha256=6329058125b220de2e191f83e787b13b391b0d612f1bd595baa8476dd2ec1646\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ooeyjgqt/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement dask==2022.7.1, but you'll have dask 2023.3.2 which is incompatible.\n",
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement distributed==2022.7.1, but you'll have distributed 2023.3.2.1 which is incompatible.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement cuda-python<11.7.1,>=11.5, but you'll have cuda-python 11.8.1 which is incompatible.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement protobuf<3.21.0a0,>=3.20.1, but you'll have protobuf 3.19.6 which is incompatible.\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (0.56.4)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (3.19.6)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.3.5)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.2.5)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+60.g2d60d237) (1.12.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.0)\n",
-      "Requirement already satisfied: numpy>=1.16.6 in /usr/local/lib/python3.8/dist-packages (from pyarrow>=5.0.0->merlin-core==0.9.0+60.g2d60d237) (1.22.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.0)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.4)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (8.1.3)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.7.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (6.1)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (3.1.2)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (5.9.4)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.26.13)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.4.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (0.39.1)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (2.8.2)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (1.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.57.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core==0.9.0+60.g2d60d237) (2.1.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+60.g2d60d237) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+60.g2d60d237) (1.14.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.4)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+60.g2d60d237) (6.0.1)\n",
-      "Building wheels for collected packages: merlin-core\n",
-      "  Building wheel for merlin-core (PEP 517): started\n",
-      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+60.g2d60d237-py3-none-any.whl size=152708 sha256=ff70b25964dafa4162daf96e739c4866570e8eec2aa70c8b1f38049656b6b486\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-xyk5t8ph/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
-      "Successfully built merlin-core\n",
-      "Installing collected packages: merlin-core\n",
+      "Installing collected packages: fsspec, dask, distributed, dask-cuda, merlin-core\n",
+      "  Attempting uninstall: fsspec\n",
+      "    Found existing installation: fsspec 2022.5.0\n",
+      "    Uninstalling fsspec-2022.5.0:\n",
+      "      Successfully uninstalled fsspec-2022.5.0\n",
+      "  Attempting uninstall: dask\n",
+      "    Found existing installation: dask 2022.7.1\n",
+      "    Uninstalling dask-2022.7.1:\n",
+      "      Successfully uninstalled dask-2022.7.1\n",
+      "  Attempting uninstall: distributed\n",
+      "    Found existing installation: distributed 2022.7.1\n",
+      "    Uninstalling distributed-2022.7.1:\n",
+      "      Successfully uninstalled distributed-2022.7.1\n",
+      "  Attempting uninstall: dask-cuda\n",
+      "    Found existing installation: dask-cuda 22.8.0a0+36.g9860cad\n",
+      "    Uninstalling dask-cuda-22.8.0a0+36.g9860cad:\n",
+      "      Successfully uninstalled dask-cuda-22.8.0a0+36.g9860cad\n",
       "  Attempting uninstall: merlin-core\n",
       "    Found existing installation: merlin-core 0.10.0\n",
       "    Uninstalling merlin-core-0.10.0:\n",
       "      Successfully uninstalled merlin-core-0.10.0\n",
-      "Successfully installed merlin-core-0.9.0+60.g2d60d237\n"
+      "Successfully installed dask-2023.3.2 dask-cuda-23.4.0 distributed-2023.3.2.1 fsspec-2023.4.0 merlin-core-0.9.0+96.gdd98a436\n"
      ]
     },
     {
@@ -351,14 +425,14 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/NVTabular\n",
       " * branch              main       -> FETCH_HEAD\n",
-      "   c5bc4098..9b186ee9  main       -> origin/main\n"
+      "   c5bc4098..ae580ada  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating c5bc4098..9b186ee9\n",
+      "Updating c5bc4098..ae580ada\n",
       "Fast-forward\n",
       " .github/ISSUE_TEMPLATE/bug_report.md               |  11 +-\n",
       " .github/ISSUE_TEMPLATE/documentation-request.md    |   3 +-\n",
@@ -371,10 +445,10 @@
       " .github/workflows/blossom-ci.yml                   | 230 ++++++++++-----------\n",
       " .github/workflows/conda-env-create.yml             |  30 +--\n",
       " .github/workflows/cpu-ci.yml                       | 138 -------------\n",
-      " .github/workflows/cpu-packages.yml                 | 132 ++++++++++++\n",
-      " .github/workflows/cpu-tests.yml                    |  69 +++++++\n",
-      " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |   6 +-\n",
+      " .github/workflows/cpu-packages.yml                 | 166 +++++++++++++++\n",
+      " .github/workflows/cpu-tests.yml                    |  71 +++++++\n",
+      " .github/workflows/docs-preview-pr.yaml             |   4 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
       " .github/workflows/gpu-ci.yml                       |  30 ---\n",
       " .github/workflows/gpu-tests.yml                    |  30 +++\n",
       " .gitlab-ci.yml                                     |  23 +--\n",
@@ -383,11 +457,14 @@
       " CHANGELOG.md                                       | 187 ++++++++---------\n",
       " CONTRIBUTING.md                                    |  30 +--\n",
       " README.md                                          |  48 ++---\n",
+      " bench/datasets/tools/nvt_etl.py                    |   4 +-\n",
       " bench/datasets/tools/train_tensorflow.py           |   1 -\n",
       " bench/examples/MultiGPUBench.md                    |  67 +++---\n",
+      " bench/examples/dask-nvtabular-criteo-benchmark.py  |   4 +-\n",
       " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
       " conda/environments/nvtabular_aws_sagemaker.yml     |   2 +-\n",
-      " docs/README.md                                     |  18 +-\n",
+      " cpp/nvtabular/inference/categorify.cc              |  10 +\n",
+      " docs/README.md                                     |  29 ++-\n",
       " docs/source/core_features.md                       |  48 ++---\n",
       " docs/source/resources/architecture.md              |  17 +-\n",
       " docs/source/resources/cloud_integration.md         |  24 ++-\n",
@@ -395,36 +472,55 @@
       " docs/source/toc.yaml                               |  12 +-\n",
       " examples/01-Getting-started.ipynb                  |   5 +-\n",
       " examples/02-Advanced-NVTabular-workflow.ipynb      |   5 +-\n",
-      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |   5 +-\n",
+      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |  24 ++-\n",
       " examples/README.md                                 |   1 +\n",
+      " .../tensorflow/tfrecords_to_parquet.py             |   9 +-\n",
       " nvtabular/inference/__init__.py                    |   4 +-\n",
+      " nvtabular/inference/triton/data_conversions.py     |  24 +--\n",
       " nvtabular/inference/triton/ensemble.py             |  86 ++------\n",
       " nvtabular/inference/triton/model/model_pt.py       |   1 -\n",
       " nvtabular/inference/workflow/hugectr.py            |   2 +-\n",
       " nvtabular/loader/backend.py                        |  31 +--\n",
       " nvtabular/loader/tensorflow.py                     |   1 +\n",
-      " nvtabular/ops/categorify.py                        |   2 -\n",
+      " nvtabular/ops/categorify.py                        |   4 +-\n",
+      " nvtabular/ops/column_similarity.py                 |  40 ++--\n",
       " nvtabular/ops/groupby.py                           |  35 ++--\n",
-      " nvtabular/ops/join_external.py                     |   1 -\n",
+      " nvtabular/ops/join_external.py                     |   7 +-\n",
       " nvtabular/ops/join_groupby.py                      |  18 +-\n",
       " nvtabular/ops/list_slice.py                        |  22 +-\n",
       " nvtabular/ops/moments.py                           |   2 -\n",
       " nvtabular/ops/reduce_dtype_size.py                 |   9 +-\n",
       " nvtabular/ops/value_counts.py                      |  14 +-\n",
-      " nvtabular/workflow/workflow.py                     | 113 +++++++++-\n",
+      " nvtabular/tools/data_gen.py                        |  31 ++-\n",
+      " nvtabular/utils.py                                 |   2 +-\n",
+      " nvtabular/workflow/workflow.py                     | 169 +++++++++++++--\n",
       " requirements-test.txt                              |   2 -\n",
       " requirements/test.txt                              |   3 +-\n",
       " setup.py                                           |   5 +\n",
-      " tests/conftest.py                                  |   1 -\n",
-      " .../test_02-Advanced-NVTabular-workflow.py         |  12 +-\n",
-      " tests/unit/ops/test_column_similarity.py           |   1 -\n",
-      " tests/unit/ops/test_groupyby.py                    |   2 +-\n",
+      " tests/conftest.py                                  |  33 ++-\n",
+      " .../test_02-Advanced-NVTabular-workflow.py         |  17 +-\n",
+      " .../test_03-Running-on-multiple-GPUs-or-on-CPU.py  |  11 +-\n",
+      " tests/unit/loader/test_tf_dataloader.py            | 206 +++---------------\n",
+      " tests/unit/loader/test_torch_dataloader.py         |  73 ++-----\n",
+      " tests/unit/ops/test_categorify.py                  |  36 +++-\n",
+      " tests/unit/ops/test_column_similarity.py           |   3 +-\n",
+      " tests/unit/ops/test_drop_low_cardinality.py        |   7 +-\n",
+      " tests/unit/ops/test_groupyby.py                    |   9 +-\n",
+      " tests/unit/ops/test_join.py                        |  11 +-\n",
       " tests/unit/ops/test_lambda.py                      |  28 ++-\n",
+      " tests/unit/ops/test_ops.py                         |  12 +-\n",
       " tests/unit/ops/test_ops_schema.py                  |  25 ++-\n",
+      " tests/unit/ops/test_reduce_dtype_size.py           |   7 +-\n",
+      " tests/unit/ops/test_target_encode.py               |  11 +-\n",
       " tests/unit/ops/test_value_count.py                 |   2 +\n",
-      " tests/unit/workflow/test_workflow.py               |  75 ++++++-\n",
-      " tox.ini                                            |   9 +-\n",
-      " 64 files changed, 1056 insertions(+), 786 deletions(-)\n",
+      " tests/unit/test_dask_nvt.py                        |   5 +-\n",
+      " tests/unit/test_s3.py                              |   8 +-\n",
+      " tests/unit/test_tf4rec.py                          |  11 +-\n",
+      " tests/unit/test_triton_inference.py                |   3 +-\n",
+      " tests/unit/workflow/test_cpu_workflow.py           |   6 +-\n",
+      " tests/unit/workflow/test_workflow.py               |  92 ++++++++-\n",
+      " tox.ini                                            |  10 +-\n",
+      " 86 files changed, 1393 insertions(+), 1177 deletions(-)\n",
       " delete mode 100644 .github/workflows/cpu-ci.yml\n",
       " create mode 100644 .github/workflows/cpu-packages.yml\n",
       " create mode 100644 .github/workflows/cpu-tests.yml\n",
@@ -439,71 +535,72 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.0.4)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (0.9.0+60.g2d60d237)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+42.g9b186ee9) (1.9.3)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.56.4)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.5)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.5)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (11.4.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.0.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.5.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.19.6)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.12.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (22.0)\n",
-      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+42.g9b186ee9) (1.22.4)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.2.0)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.8.2)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.4.3)\n"
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+58.gae580ada) (1.9.3)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+58.gae580ada) (0.9.0+96.gdd98a436)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+58.gae580ada) (0.0.4)\n",
+      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+58.gae580ada) (1.22.4)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.3.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (11.4.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (0.56.4)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (4.64.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (3.19.6)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2023.3.2)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.2.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.12.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (22.0)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (23.4.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.2.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (0.12.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (5.9.4)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.1.2)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.4)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (8.1.3)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.4.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.7.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.1)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.2.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.26.13)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.14.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.4)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (1.0.1)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+42.g9b186ee9) (4.0.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (8.0.0)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2023.3.2.1)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2023.4.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2022.7)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (45.2.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (0.12.0)\n",
+      "Requirement already satisfied: click>=7.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (8.1.3)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2.2.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.3.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (6.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.57.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2.2.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.0.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (3.1.2)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2.4.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (6.1)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.26.13)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.7.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.0.4)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (5.9.4)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (4.1.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (2.1.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->nvtabular==1.6.0+58.gae580ada) (6.0.1)\n",
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+42.g9b186ee9-cp38-cp38-linux_x86_64.whl size=258506 sha256=7731e40e8914024a9c9ea9abe993404858d29604ae832237d2a69c1675161f23\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-18ktqhn2/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+58.gae580ada-cp38-cp38-linux_x86_64.whl size=259843 sha256=2adce1586183203caf25c45be5ae665301f512c8ef53b0c8a2f5ac712da8065b\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-3pmnk263/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
       "Installing collected packages: nvtabular\n",
       "  Attempting uninstall: nvtabular\n",
       "    Found existing installation: nvtabular 1.8.0\n",
       "    Uninstalling nvtabular-1.8.0:\n",
       "      Successfully uninstalled nvtabular-1.8.0\n",
-      "Successfully installed nvtabular-1.6.0+42.g9b186ee9\n"
+      "Successfully installed nvtabular-1.6.0+58.gae580ada\n"
      ]
     },
     {
@@ -527,14 +624,14 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/systems\n",
       " * branch            main       -> FETCH_HEAD\n",
-      "   20bb231..329cba4  main       -> origin/main\n"
+      "   20bb231..f8d8808  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating 20bb231..329cba4\n",
+      "Updating 20bb231..f8d8808\n",
       "Fast-forward\n",
       " .github/ISSUE_TEMPLATE/bug-report.md               |  17 +-\n",
       " .github/ISSUE_TEMPLATE/documentation-request.md    |  12 +-\n",
@@ -542,11 +639,13 @@
       " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
       " .github/ISSUE_TEMPLATE/task.md                     |   5 +-\n",
       " .github/release-drafter.yml                        |  44 +-\n",
-      " .github/workflows/cpu-ci.yml                       | 112 ++--\n",
+      " .github/workflows/cpu-ci.yml                       | 133 ++--\n",
       " .github/workflows/docs-preview-pr.yaml             |   2 +-\n",
       " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |  32 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  36 +-\n",
       " .github/workflows/lint.yaml                        |  12 +-\n",
+      " .github/workflows/postmerge-cpu.yml                |  96 +++\n",
+      " .github/workflows/postmerge-gpu.yml                |  27 +\n",
       " .github/workflows/release-drafter.yml              |   2 +-\n",
       " .pre-commit-config.yaml                            |  71 +-\n",
       " .prettierignore                                    |   2 +\n",
@@ -558,57 +657,91 @@
       " ...ing-An-Implicit-Model-With-Merlin-Systems.ipynb |   5 +-\n",
       " ...ving-An-XGboost-Model-With-Merlin-Systems.ipynb |   5 +-\n",
       " ...erving-Ranking-Models-With-Merlin-Systems.ipynb |   5 +-\n",
-      " merlin/systems/dag/dictarray.py                    |   4 +-\n",
-      " merlin/systems/dag/op_runner.py                    |   1 -\n",
-      " merlin/systems/dag/ops/__init__.py                 |  11 +-\n",
-      " merlin/systems/dag/ops/faiss.py                    |   4 +-\n",
-      " merlin/systems/dag/ops/feast.py                    |  80 +--\n",
-      " merlin/systems/dag/ops/fil.py                      |   4 +-\n",
-      " merlin/systems/dag/ops/implicit.py                 |  72 +-\n",
-      " merlin/systems/dag/ops/operator.py                 | 189 +-----\n",
-      " merlin/systems/dag/ops/pytorch.py                  |   4 +-\n",
-      " merlin/systems/dag/ops/session_filter.py           |   4 +-\n",
-      " merlin/systems/dag/ops/softmax_sampling.py         |  17 +-\n",
-      " merlin/systems/dag/ops/unroll_features.py          |   4 +-\n",
-      " merlin/systems/dag/ops/workflow.py                 |   4 +-\n",
-      " merlin/systems/dag/runtimes/triton/ops/implicit.py | 185 ++++++\n",
-      " merlin/systems/dag/runtimes/triton/ops/operator.py | 169 ++++-\n",
-      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |   2 +-\n",
-      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  12 +-\n",
-      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 141 +++-\n",
-      " merlin/systems/dag/runtimes/triton/runtime.py      |  14 +-\n",
-      " merlin/systems/triton/__init__.py                  |  33 +-\n",
-      " merlin/systems/triton/export.py                    | 724 +--------------------\n",
-      " merlin/systems/triton/models/executor_model.py     |  34 +-\n",
-      " merlin/systems/triton/models/oprunner_model.py     |  32 +-\n",
-      " merlin/systems/triton/models/pytorch_model.py      | 127 ++--\n",
-      " merlin/systems/triton/models/workflow_model.py     |  50 +-\n",
-      " merlin/systems/triton/utils.py                     |  35 +-\n",
-      " tests/conftest.py                                  |   4 +-\n",
-      " ...erving_an_implicit_model_with_merlin_systems.py |   4 +-\n",
+      " merlin/systems/dag/__init__.py                     |   2 -\n",
+      " merlin/systems/dag/dictarray.py                    | 345 ----------\n",
+      " merlin/systems/dag/ensemble.py                     |   2 +-\n",
+      " merlin/systems/dag/node.py                         |  29 +-\n",
+      " merlin/systems/dag/op_runner.py                    |  68 --\n",
+      " merlin/systems/dag/ops/__init__.py                 |  22 +-\n",
+      " merlin/systems/dag/ops/faiss.py                    | 116 +---\n",
+      " merlin/systems/dag/ops/feast.py                    | 110 +---\n",
+      " merlin/systems/dag/ops/fil.py                      |  74 +--\n",
+      " merlin/systems/dag/ops/implicit.py                 |  84 +--\n",
+      " merlin/systems/dag/ops/operator.py                 | 216 +-----\n",
+      " merlin/systems/dag/ops/pytorch.py                  |  24 +-\n",
+      " merlin/systems/dag/ops/session_filter.py           |  72 +-\n",
+      " merlin/systems/dag/ops/softmax_sampling.py         |  61 +-\n",
+      " merlin/systems/dag/ops/tensorflow.py               | 140 ++--\n",
+      " merlin/systems/dag/ops/unroll_features.py          |  36 +-\n",
+      " merlin/systems/dag/ops/workflow.py                 |  29 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/fil.py      |  43 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/operator.py |  84 ++-\n",
+      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |  18 +-\n",
+      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  32 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 143 +++-\n",
+      " merlin/systems/dag/runtimes/triton/runtime.py      |  36 +-\n",
+      " merlin/systems/triton/__init__.py                  | 118 ++--\n",
+      " merlin/systems/triton/conversions.py               |  89 ++-\n",
+      " merlin/systems/triton/export.py                    | 729 +--------------------\n",
+      " merlin/systems/triton/models/executor_model.py     |  38 +-\n",
+      " merlin/systems/triton/models/oprunner_model.py     | 129 ----\n",
+      " merlin/systems/triton/models/pytorch_model.py      | 139 ++--\n",
+      " merlin/systems/triton/models/workflow_model.py     |  64 +-\n",
+      " merlin/systems/triton/utils.py                     |  50 +-\n",
+      " merlin/systems/workflow/base.py                    |  26 +-\n",
+      " merlin/systems/workflow/hugectr.py                 |  87 ---\n",
+      " merlin/systems/workflow/pytorch.py                 |  46 --\n",
+      " merlin/systems/workflow/tensorflow.py              |  68 --\n",
+      " pytest.ini                                         |   7 +-\n",
+      " tests/conftest.py                                  |  36 +-\n",
+      " ...erving_an_implicit_model_with_merlin_systems.py |  12 +-\n",
       " ...serving_an_xgboost_model_with_merlin_systems.py |   4 +-\n",
-      " tests/unit/systems/dag/ops/test_ops.py             |  20 +-\n",
-      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |   2 +-\n",
-      " .../triton/ops/fil/test_lightgbm_triton.py         |   4 +-\n",
+      " tests/integration/tf/test_transformer_model.py     | 103 +++\n",
+      " .../systems/dag/test_column.py => test_passing.py} |  15 +-\n",
+      " tests/unit/systems/dag/ops/test_ops.py             | 101 ++-\n",
+      " .../dag/runtimes/local/ops/fil/test_lightgbm.py    |  15 +-\n",
+      " .../dag/runtimes/local/ops/fil/test_sklearn.py     |  15 +-\n",
+      " .../dag/runtimes/local/ops/fil/test_xgboost.py     |  18 +-\n",
+      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |  10 +-\n",
+      " .../runtimes/local/ops/tensorflow/test_ensemble.py |  35 +-\n",
+      " .../dag/runtimes/local/ops/torch/test_op.py        |   6 +-\n",
+      " .../triton/ops/fil/test_lightgbm_triton.py         |  11 +-\n",
       " .../runtimes/triton/ops/fil/test_sklearn_triton.py |   4 +-\n",
-      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   7 +-\n",
       " .../dag/runtimes/triton/ops/torch/test_op.py       |   4 +-\n",
-      " .../runtimes/triton/ops/workflow/test_ensemble.py  |  67 +-\n",
-      " .../systems/dag/runtimes/triton/test_triton.py     |   4 +-\n",
-      " tests/unit/systems/dag/test_dict_array.py          |   4 +-\n",
-      " tests/unit/systems/dag/test_executors.py           |   4 +-\n",
-      " tests/unit/systems/ops/faiss/test_executor.py      |   4 +-\n",
-      " tests/unit/systems/ops/feast/test_op.py            |  46 +-\n",
-      " tests/unit/systems/ops/fil/test_ensemble.py        |   4 +-\n",
+      " .../runtimes/triton/ops/workflow/test_ensemble.py  |  69 +-\n",
+      " .../systems/dag/runtimes/triton/test_triton.py     |  21 +-\n",
+      " tests/unit/systems/dag/test_dict_array.py          |  76 ---\n",
+      " tests/unit/systems/dag/test_ensemble.py            |   4 +-\n",
+      " tests/unit/systems/dag/test_executors.py           |  12 +-\n",
+      " tests/unit/systems/dag/test_op_runner.py           | 210 ------\n",
+      " tests/unit/systems/ops/faiss/test_executor.py      |  25 +-\n",
+      " tests/unit/systems/ops/feast/test_op.py            |  76 +--\n",
+      " tests/unit/systems/ops/fil/test_ensemble.py        |  21 +-\n",
+      " tests/unit/systems/ops/fil/test_forest.py          |  47 +-\n",
+      " tests/unit/systems/ops/fil/test_op.py              | 106 ++-\n",
       " tests/unit/systems/ops/implicit/test_executor.py   |   4 +-\n",
-      " tests/unit/systems/ops/implicit/test_op.py         |  11 +-\n",
-      " tests/unit/systems/ops/tf/test_ensemble.py         |   4 +-\n",
-      " tests/unit/systems/utils/ops.py                    |   7 +-\n",
+      " tests/unit/systems/ops/implicit/test_op.py         |  51 +-\n",
+      " tests/unit/systems/ops/tf/test_ensemble.py         |  15 +-\n",
+      " tests/unit/systems/ops/tf/test_op.py               |   6 +-\n",
+      " tests/unit/systems/utils/ops.py                    |  13 +-\n",
+      " tests/unit/systems/utils/tf.py                     |  65 +-\n",
       " tests/unit/test_export.py                          |  77 ---\n",
-      " tox.ini                                            |   1 -\n",
-      " 70 files changed, 1072 insertions(+), 1580 deletions(-)\n",
+      " tox.ini                                            |  42 +-\n",
+      " 95 files changed, 1738 insertions(+), 3531 deletions(-)\n",
+      " create mode 100644 .github/workflows/postmerge-cpu.yml\n",
+      " create mode 100644 .github/workflows/postmerge-gpu.yml\n",
       " create mode 100644 .prettierignore\n",
-      " create mode 100644 merlin/systems/dag/runtimes/triton/ops/implicit.py\n",
+      " delete mode 100644 merlin/systems/dag/dictarray.py\n",
+      " delete mode 100644 merlin/systems/dag/op_runner.py\n",
+      " delete mode 100644 merlin/systems/triton/models/oprunner_model.py\n",
+      " delete mode 100644 merlin/systems/workflow/hugectr.py\n",
+      " delete mode 100644 merlin/systems/workflow/pytorch.py\n",
+      " delete mode 100644 merlin/systems/workflow/tensorflow.py\n",
+      " create mode 100644 tests/integration/tf/test_transformer_model.py\n",
+      " rename tests/{unit/systems/dag/test_column.py => test_passing.py} (66%)\n",
+      " delete mode 100644 tests/unit/systems/dag/test_dict_array.py\n",
+      " delete mode 100644 tests/unit/systems/dag/test_op_runner.py\n",
       " delete mode 100644 tests/unit/test_export.py\n",
       "Processing /systems\n",
       "  Installing build dependencies: started\n",
@@ -617,78 +750,85 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (1.6.0+42.g9b186ee9)\n",
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (2.28.1)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+61.g329cba4) (0.9.0+60.g2d60d237)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.9.3)\n",
-      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+61.g329cba4) (1.22.4)\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+61.g329cba4) (0.0.4)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.8)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (1.26.13)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+61.g329cba4) (2019.11.28)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.5)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.5.0)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (22.0)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.0.0)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7.1)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.12.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.64.1)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (11.4.1)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.5)\n"
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+85.gf8d8808) (0.9.0+96.gdd98a436)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+85.gf8d8808) (2.28.1)\n",
+      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+85.gf8d8808) (2.4.0)\n",
+      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+85.gf8d8808) (1.6.0+58.gae580ada)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+85.gf8d8808) (2.4.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.12.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (3.19.6)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.2.5)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2023.3.2.1)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2023.3.2)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.22.4)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (8.0.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (4.64.1)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (11.4.1)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.3.5)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (0.56.4)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (22.0)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (23.4.0)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2023.4.0)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+85.gf8d8808) (2019.11.28)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+85.gf8d8808) (1.26.13)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+85.gf8d8808) (2.8)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+85.gf8d8808) (2.1.1)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+85.gf8d8808) (1.9.3)\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+85.gf8d8808) (0.0.4)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.3.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (0.4.3)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (3.1.2)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.0.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.0.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (6.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (5.9.4)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2.2.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.7.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2.4.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (6.1)\n",
+      "Requirement already satisfied: zict>=2.1.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (0.12.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (8.1.3)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.3.0)\n",
+      "Requirement already satisfied: importlib-metadata>=4.13.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (5.2.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2.8.2)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (45.2.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (6.0.4)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.1.0->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.0.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata>=4.13.0->dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (1.14.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+85.gf8d8808) (4.0.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.56.4)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.19.6)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.2.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.12.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.4.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.4)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.1)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.9.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.1.2)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (8.1.3)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.7.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.57.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2022.7)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (0.39.1)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.1.0)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.0.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (1.14.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+61.g329cba4) (4.0.0)\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+61.g329cba4-py3-none-any.whl size=99480 sha256=ddfc752fa7ed3e5062808e4652c1d9967ac2d68ec1847cb24cfbe573a88ed6a9\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-lnbqyxql/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+85.gf8d8808-py3-none-any.whl size=82291 sha256=8c5627527a9d78da90574f8395d44aeae5cc2e8b3b312c1661ed142177d4c5a2\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ti8uwtr9/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
       "    Found existing installation: merlin-systems 0.9.0\n",
       "    Uninstalling merlin-systems-0.9.0:\n",
       "      Successfully uninstalled merlin-systems-0.9.0\n",
-      "Successfully installed merlin-systems-0.7.0+61.g329cba4\n"
+      "Successfully installed merlin-systems-0.7.0+85.gf8d8808\n"
      ]
     },
     {
@@ -712,42 +852,70 @@
      "text": [
       "From https://github.com/NVIDIA-Merlin/dataloader\n",
       " * branch            main       -> FETCH_HEAD\n",
-      "   5b3fe46..ce2215d  main       -> origin/main\n"
+      "   5b3fe46..8782c9d  main       -> origin/main\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating 5b3fe46..ce2215d\n",
+      "Updating 5b3fe46..8782c9d\n",
       "Fast-forward\n",
-      " .github/workflows/cpu-ci.yml                       |  81 -----\n",
+      " .github/workflows/cpu-ci.yml                       |  81 ----\n",
       " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
       " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/models.yml                       |  43 +++\n",
+      " .github/workflows/nvtabular.yml                    |  43 +++\n",
+      " .github/workflows/systems.yml                      |  43 +++\n",
+      " .github/workflows/transformers4rec.yml             |  43 +++\n",
       " .pre-commit-config.yaml                            |  14 +-\n",
       " ci/pr.gpu.Jenkinsfile                              |  44 +++\n",
       " docs/README.md                                     |  28 +-\n",
       " examples/01a-Getting-started-Tensorflow.ipynb      |   5 +-\n",
-      " examples/01b-Getting-started-Pytorch.ipynb         |   9 +-\n",
-      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 +++++++++++++++++++++\n",
-      " merlin/dataloader/jax.py                           |   3 +\n",
-      " merlin/dataloader/loader_base.py                   | 221 ++++--------\n",
-      " merlin/dataloader/ops/embeddings/embedding_op.py   |   4 +-\n",
-      " .../ops/embeddings/torch_embedding_op.py           |   4 +-\n",
-      " merlin/dataloader/tensorflow.py                    |   9 +-\n",
-      " merlin/dataloader/torch.py                         |  49 ++-\n",
-      " merlin/dataloader/utils/tf/tf_trainer.py           |   2 +-\n",
+      " examples/01b-Getting-started-Pytorch.ipynb         |   5 +-\n",
+      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 +++++++++++++++++++\n",
+      " merlin/dataloader/jax.py                           |  52 +--\n",
+      " merlin/dataloader/loader_base.py                   | 412 +++++++++------------\n",
+      " .../{embeddings/embedding_op.py => embeddings.py}  |  44 +--\n",
+      " merlin/dataloader/ops/embeddings/__init__.py       |  15 -\n",
+      " .../dataloader/ops/embeddings/tf_embedding_op.py   | 101 -----\n",
+      " .../ops/embeddings/torch_embedding_op.py           | 106 ------\n",
+      " merlin/dataloader/ops/padding.py                   |  88 +++++\n",
+      " merlin/dataloader/tensorflow.py                    | 320 ++++------------\n",
+      " merlin/dataloader/torch.py                         | 219 +++++------\n",
+      " merlin/dataloader/utils/tf/tf_trainer.py           |  13 +-\n",
+      " tests/conftest.py                                  |  11 +-\n",
       " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
-      " tests/unit/dataloader/test_tf_dataloader.py        |  20 +-\n",
-      " tests/unit/dataloader/test_tf_embeddings.py        |  24 +-\n",
-      " tests/unit/dataloader/test_torch_dataloader.py     |  38 +++\n",
-      " tests/unit/dataloader/test_torch_embeddings.py     |  12 +-\n",
-      " tox.ini                                            |   1 +\n",
-      " 22 files changed, 801 insertions(+), 298 deletions(-)\n",
+      " tests/unit/dataloader/test_array_dataloader.py     |  54 +++\n",
+      " tests/unit/dataloader/test_array_to_tensorflow.py  |  54 +++\n",
+      " tests/unit/dataloader/test_array_to_torch.py       |  69 ++++\n",
+      " .../{test_tf_embeddings.py => test_embeddings.py}  | 109 +++---\n",
+      " tests/unit/dataloader/test_jax_dataloader.py       |  29 +-\n",
+      " tests/unit/dataloader/test_padding.py              |  46 +++\n",
+      " tests/unit/dataloader/test_tf_dataloader.py        | 330 ++++++++---------\n",
+      " tests/unit/dataloader/test_torch_dataloader.py     | 233 +++++++++---\n",
+      " tests/unit/dataloader/test_torch_embeddings.py     | 242 ------------\n",
+      " tox.ini                                            |  55 +++\n",
+      " 35 files changed, 1950 insertions(+), 1532 deletions(-)\n",
       " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .github/workflows/models.yml\n",
+      " create mode 100644 .github/workflows/nvtabular.yml\n",
+      " create mode 100644 .github/workflows/systems.yml\n",
+      " create mode 100644 .github/workflows/transformers4rec.yml\n",
       " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
       " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
+      " rename merlin/dataloader/ops/{embeddings/embedding_op.py => embeddings.py} (85%)\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/__init__.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/tf_embedding_op.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/torch_embedding_op.py\n",
+      " create mode 100644 merlin/dataloader/ops/padding.py\n",
       " create mode 100644 tests/examples/test_multi_GPU_with_horovod_and_tensorflow.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_dataloader.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_to_tensorflow.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_to_torch.py\n",
+      " rename tests/unit/dataloader/{test_tf_embeddings.py => test_embeddings.py} (65%)\n",
+      " create mode 100644 tests/unit/dataloader/test_padding.py\n",
+      " delete mode 100644 tests/unit/dataloader/test_torch_embeddings.py\n",
       "Processing /dataloader\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -755,90 +923,91 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+43.gce2215d) (0.9.0+60.g2d60d237)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.64.1)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.0.0)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (22.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (11.4.1)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.19.6)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.56.4)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.12.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.5)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.5.0)\n",
-      "Requirement already satisfied: numpy>=1.17.3; platform_machine != \"aarch64\" and platform_machine != \"arm64\" and python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.22.4)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2022.7)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (8.1.3)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.4.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.1.2)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.7.0)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.4)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.9.4)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.2.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.1)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.26.13)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (5.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.57.0)\n"
+      "Requirement already satisfied: merlin-core>=0.8.0 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+61.g8782c9d) (0.9.0+96.gdd98a436)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (0.56.4)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2023.4.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (8.0.0)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (23.4.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.3.5)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.2.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (11.4.1)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2023.3.2.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (22.0)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.22.4)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2023.3.2)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.12.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (4.64.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (3.19.6)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (0.39.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2.2.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2.8.2)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.2.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (3.1.2)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (0.12.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2.4.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.2.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.14.0)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (1.0.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (3.11.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.1.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+43.gce2215d) (4.0.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.0.4)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (5.9.4)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2.2.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (6.1)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (8.1.3)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.26.13)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (6.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.0.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.7.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.3.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.57.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (1.14.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (4.1.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (2.1.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.8.0->merlin-dataloader==0.0.2+61.g8782c9d) (6.0.1)\n",
       "Building wheels for collected packages: merlin-dataloader\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+43.gce2215d-py3-none-any.whl size=40867 sha256=1448516ec061e7ef5df449df29f4896705367b7602040fb55c679508f76d85a2\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ukzco8eb/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+61.g8782c9d-py3-none-any.whl size=35106 sha256=fa1f42bb96e28202a3d7f568445715105e51cd88e96e2baed0f0d3e0981bf5a3\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-i0cb09xq/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
       "Successfully built merlin-dataloader\n",
       "Installing collected packages: merlin-dataloader\n",
       "  Attempting uninstall: merlin-dataloader\n",
       "    Found existing installation: merlin-dataloader 0.0.4\n",
       "    Uninstalling merlin-dataloader-0.0.4:\n",
       "      Successfully uninstalled merlin-dataloader-0.0.4\n",
-      "Successfully installed merlin-dataloader-0.0.2+43.gce2215d\n",
+      "Successfully installed merlin-dataloader-0.0.2+61.g8782c9d\n",
       "Collecting matplotlib\n",
       "  Downloading matplotlib-3.7.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (9.2 MB)\n",
-      "Collecting pillow>=6.2.0\n",
-      "  Downloading Pillow-9.4.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
       "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (2.8.2)\n",
-      "Collecting kiwisolver>=1.0.1\n",
-      "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
+      "Collecting fonttools>=4.22.0\n",
+      "  Downloading fonttools-4.39.3-py3-none-any.whl (1.0 MB)\n",
       "Requirement already satisfied: importlib-resources>=3.2.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from matplotlib) (5.10.2)\n",
-      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
-      "Collecting contourpy>=1.0.1\n",
-      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
       "Collecting cycler>=0.10\n",
       "  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)\n",
       "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (1.22.4)\n",
-      "Collecting fonttools>=4.22.0\n",
-      "  Downloading fonttools-4.39.0-py3-none-any.whl (1.0 MB)\n",
+      "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (22.0)\n",
+      "Collecting contourpy>=1.0.1\n",
+      "  Downloading contourpy-1.0.7-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (300 kB)\n",
+      "Collecting pillow>=6.2.0\n",
+      "  Downloading Pillow-9.5.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)\n",
+      "Collecting kiwisolver>=1.0.1\n",
+      "  Downloading kiwisolver-1.4.4-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.2 MB)\n",
       "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.8/dist-packages (from matplotlib) (3.0.9)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7->matplotlib) (1.14.0)\n",
       "Requirement already satisfied: zipp>=3.1.0; python_version < \"3.10\" in /usr/local/lib/python3.8/dist-packages (from importlib-resources>=3.2.0; python_version < \"3.10\"->matplotlib) (3.11.0)\n",
-      "Installing collected packages: pillow, kiwisolver, contourpy, cycler, fonttools, matplotlib\n",
-      "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.0 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.4.0\n"
+      "Installing collected packages: fonttools, cycler, contourpy, pillow, kiwisolver, matplotlib\n",
+      "Successfully installed contourpy-1.0.7 cycler-0.11.0 fonttools-4.39.3 kiwisolver-1.4.4 matplotlib-3.7.1 pillow-9.5.0\n"
      ]
     }
    ],
@@ -864,21 +1033,21 @@
      "output_type": "stream",
      "text": [
       "Collecting gdown\n",
-      "  Downloading gdown-4.6.4-py3-none-any.whl (14 kB)\n",
+      "  Downloading gdown-4.7.1-py3-none-any.whl (15 kB)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
       "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
       "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
       "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
-      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
-      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
       "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
       "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
       "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
       "Installing collected packages: gdown, PySocks\n",
-      "Successfully installed PySocks-1.7.1 gdown-4.6.4\n"
+      "Successfully installed PySocks-1.7.1 gdown-4.7.1\n"
      ]
     },
     {
@@ -886,9 +1055,10 @@
      "output_type": "stream",
      "text": [
       "Downloading...\n",
-      "From: https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=522dba81-f22d-40ea-baec-dc798d7feb51\n",
       "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.14MB/s]\n"
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.15MB/s]\n"
      ]
     },
     {
@@ -896,32 +1066,32 @@
      "output_type": "stream",
      "text": [
       "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
-      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [920 kB]\n",
+      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [973 kB]\n",
       "Get:3 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
       "Get:4 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
-      "Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1017 kB]\n",
-      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
-      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Get:8 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
-      "Get:9 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
-      "Get:10 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
-      "Get:11 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2544 kB]\n",
-      "Get:12 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
-      "Get:13 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1998 kB]\n",
-      "Get:14 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
-      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3019 kB]\n",
-      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2134 kB]\n",
-      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1312 kB]\n",
-      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:6 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2593 kB]\n",
+      "Get:7 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:9 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:11 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2065 kB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1028 kB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3075 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2203 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1324 kB]\n",
       "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
       "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
-      "Fetched 26.5 MB in 10s (2574 kB/s)\n",
+      "Fetched 26.8 MB in 9s (3067 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
       "Reading state information...\n",
       "unzip is already the newest version (6.0-25ubuntu1.1).\n",
-      "0 upgraded, 0 newly installed, 0 to remove and 88 not upgraded.\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 98 not upgraded.\n",
       "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
       "   creating: ecom_dataset/0001/\n",
       "  inflating: ecom_dataset/0001/valid.parquet  \n",
@@ -951,7 +1121,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 3,
    "id": "ceb3ae93",
    "metadata": {},
    "outputs": [
@@ -959,7 +1129,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-03-15 06:40:18.761460: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-04-13 07:03:01.943949: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
      ]
     },
@@ -976,21 +1146,21 @@
      "text": [
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "2023-03-15 06:40:21.081059: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:21.081515: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:21.081687: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:04.162345: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:04.162771: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:04.162913: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
       "  from .autonotebook import tqdm as notebook_tqdm\n",
-      "2023-03-15 06:40:21.521454: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-04-13 07:03:04.732148: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-03-15 06:40:21.522384: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:21.522595: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:21.522750: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:22.246877: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:22.247075: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:22.247224: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-03-15 06:40:22.247337: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-03-15 06:40:22.247404: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
+      "2023-04-13 07:03:04.733142: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:04.733326: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:04.733458: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:05.442807: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:05.442992: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:05.443126: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 07:03:05.443238: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-04-13 07:03:05.443295: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n"
      ]
     }
    ],
@@ -1009,7 +1179,28 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 33,
+   "execution_count": 3,
+   "id": "574b955a",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/cudf/utils/gpu_utils.py:148: UserWarning: No NVIDIA GPU detected\n",
+      "  warnings.warn(\"No NVIDIA GPU detected\")\n"
+     ]
+    }
+   ],
+   "source": [
+    "# import cudf\n",
+    "\n",
+    "# cudf.read_parquet('ecom_dataset/0001/train.parquet')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
    "id": "11647dd3",
    "metadata": {},
    "outputs": [],
@@ -1020,7 +1211,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 5,
    "id": "4ab4e0fb",
    "metadata": {},
    "outputs": [],
@@ -1030,7 +1221,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 6,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
@@ -1049,7 +1240,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 7,
    "id": "a6ade14a",
    "metadata": {},
    "outputs": [],
@@ -1114,7 +1305,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 8,
    "id": "523fe2ac",
    "metadata": {},
    "outputs": [
@@ -1123,54 +1314,44 @@
      "output_type": "stream",
      "text": [
       "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n",
-      "2023-03-15 06:40:28.698077: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
       "  warnings.warn(\n"
      ]
     },
     {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 106s 145ms/step - loss: 7.4476 - recall_at_20: 0.1321 - mrr_at_20: 0.0713 - ndcg_at_20: 0.0847 - map_at_20: 0.0713 - precision_at_20: 0.0066 - regularization_loss: 0.0000e+00 - loss_batch: 7.4395\n",
-      "84/84 [==============================] - 8s 43ms/step - loss: 8.5501 - recall_at_20: 0.2267 - mrr_at_20: 0.0746 - ndcg_at_20: 0.1080 - map_at_20: 0.0746 - precision_at_20: 0.0113 - regularization_loss: 0.0000e+00 - loss_batch: 8.5600\n"
+     "ename": "LinkerError",
+     "evalue": "[222] Call to cuLinkAddData results in UNKNOWN_CUDA_ERROR\nptxas application ptx input, line 9; fatal   : Unsupported .version 7.8; current version is '7.7'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mLinkerError\u001b[0m                               Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[8], line 2\u001b[0m\n\u001b[1;32m      1\u001b[0m model_transformer, xlnet_block \u001b[38;5;241m=\u001b[39m get_model()\n\u001b[0;32m----> 2\u001b[0m \u001b[43mmodel_transformer\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m      3\u001b[0m \u001b[43m    \u001b[49m\u001b[43mtrain\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      4\u001b[0m \u001b[43m    \u001b[49m\u001b[43mbatch_size\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mbatch_size\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      5\u001b[0m \u001b[43m    \u001b[49m\u001b[43mepochs\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mn_epoch\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      6\u001b[0m \u001b[43m    \u001b[49m\u001b[43mpre\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mmm\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mSequencePredictNext\u001b[49m\u001b[43m(\u001b[49m\u001b[43mschema\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrain\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mschema\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtarget\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtarget\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtransformer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mxlnet_block\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m      7\u001b[0m \u001b[43m)\u001b[49m\n\u001b[1;32m      9\u001b[0m predict_last \u001b[38;5;241m=\u001b[39m mm\u001b[38;5;241m.\u001b[39mSequencePredictLast(schema\u001b[38;5;241m=\u001b[39mvalid\u001b[38;5;241m.\u001b[39mschema, target\u001b[38;5;241m=\u001b[39mtarget, transformer\u001b[38;5;241m=\u001b[39mxlnet_block)\n\u001b[1;32m     10\u001b[0m model_transformer\u001b[38;5;241m.\u001b[39mevaluate(\n\u001b[1;32m     11\u001b[0m     valid,\n\u001b[1;32m     12\u001b[0m     batch_size\u001b[38;5;241m=\u001b[39mbatch_size,\n\u001b[1;32m     13\u001b[0m     pre\u001b[38;5;241m=\u001b[39mpredict_last,\n\u001b[1;32m     14\u001b[0m     return_dict\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mTrue\u001b[39;00m\n\u001b[1;32m     15\u001b[0m )\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/models/base.py:1363\u001b[0m, in \u001b[0;36mBaseModel.fit\u001b[0;34m(self, x, y, batch_size, epochs, verbose, callbacks, validation_split, validation_data, shuffle, class_weight, sample_weight, initial_epoch, steps_per_epoch, validation_steps, validation_batch_size, validation_freq, max_queue_size, workers, use_multiprocessing, train_metrics_steps, pre, **kwargs)\u001b[0m\n\u001b[1;32m   1360\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre, SequenceTransform):\n\u001b[1;32m   1361\u001b[0m         \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre\u001b[38;5;241m.\u001b[39mconfigure_for_train()\n\u001b[0;32m-> 1363\u001b[0m out \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mfit_kwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1365\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m pre:\n\u001b[1;32m   1366\u001b[0m     \u001b[38;5;28;01mdel\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtrain_pre\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/keras/utils/traceback_utils.py:70\u001b[0m, in \u001b[0;36mfilter_traceback.<locals>.error_handler\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     67\u001b[0m     filtered_tb \u001b[38;5;241m=\u001b[39m _process_traceback_frames(e\u001b[38;5;241m.\u001b[39m__traceback__)\n\u001b[1;32m     68\u001b[0m     \u001b[38;5;66;03m# To get the full stack trace, call:\u001b[39;00m\n\u001b[1;32m     69\u001b[0m     \u001b[38;5;66;03m# `tf.debugging.disable_traceback_filtering()`\u001b[39;00m\n\u001b[0;32m---> 70\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m e\u001b[38;5;241m.\u001b[39mwith_traceback(filtered_tb) \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;28mNone\u001b[39m\n\u001b[1;32m     71\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n\u001b[1;32m     72\u001b[0m     \u001b[38;5;28;01mdel\u001b[39;00m filtered_tb\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/tensorflow.py:78\u001b[0m, in \u001b[0;36mLoader.__getitem__\u001b[0;34m(self, index)\u001b[0m\n\u001b[1;32m     70\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__getitem__\u001b[39m(\u001b[38;5;28mself\u001b[39m, index):\n\u001b[1;32m     71\u001b[0m     \u001b[38;5;124;03m\"\"\"Gets batch at position `index`.\u001b[39;00m\n\u001b[1;32m     72\u001b[0m \n\u001b[1;32m     73\u001b[0m \u001b[38;5;124;03m    Note: This returns the next batch in the iterator.\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m     76\u001b[0m \u001b[38;5;124;03m          don't currently support fetching a batch by index.\u001b[39;00m\n\u001b[1;32m     77\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m---> 78\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__next__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/tensorflow.py:82\u001b[0m, in \u001b[0;36mLoader.__next__\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m     80\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__next__\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[1;32m     81\u001b[0m     \u001b[38;5;124;03m\"\"\"Get the next batch from the dataloader\"\"\"\u001b[39;00m\n\u001b[0;32m---> 82\u001b[0m     converted_batch \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mconvert_batch(\u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__next__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m)\n\u001b[1;32m     83\u001b[0m     \u001b[38;5;28;01mfor\u001b[39;00m map_fn \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_map_fns:\n\u001b[1;32m     84\u001b[0m         converted_batch \u001b[38;5;241m=\u001b[39m map_fn(\u001b[38;5;241m*\u001b[39mconverted_batch)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:261\u001b[0m, in \u001b[0;36mLoaderBase.__next__\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    259\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__next__\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[1;32m    260\u001b[0m     \u001b[38;5;124;03m\"\"\"Get the next batch.\"\"\"\u001b[39;00m\n\u001b[0;32m--> 261\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_get_next_batch\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:332\u001b[0m, in \u001b[0;36mLoaderBase._get_next_batch\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    330\u001b[0m \u001b[38;5;66;03m# try to iterate through existing batches\u001b[39;00m\n\u001b[1;32m    331\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 332\u001b[0m     batch \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mnext\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_batch_itr)\n\u001b[1;32m    333\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mStopIteration\u001b[39;00m:\n\u001b[1;32m    334\u001b[0m     \u001b[38;5;66;03m# anticipate any more chunks getting created\u001b[39;00m\n\u001b[1;32m    335\u001b[0m     \u001b[38;5;66;03m# if not, raise the StopIteration\u001b[39;00m\n\u001b[1;32m    336\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_working \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_buff\u001b[38;5;241m.\u001b[39mempty:\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:369\u001b[0m, in \u001b[0;36mLoaderBase.make_tensors\u001b[0;34m(self, gdf, use_row_lengths)\u001b[0m\n\u001b[1;32m    352\u001b[0m \u001b[38;5;129m@annotate\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mmake_tensors\u001b[39m\u001b[38;5;124m\"\u001b[39m, color\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mdarkgreen\u001b[39m\u001b[38;5;124m\"\u001b[39m, domain\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mmerlin_dataloader\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m    353\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mmake_tensors\u001b[39m(\u001b[38;5;28mself\u001b[39m, gdf, use_row_lengths\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mFalse\u001b[39;00m):\n\u001b[1;32m    354\u001b[0m     \u001b[38;5;124;03m\"\"\"Yields batches of tensors from a dataframe\u001b[39;00m\n\u001b[1;32m    355\u001b[0m \n\u001b[1;32m    356\u001b[0m \u001b[38;5;124;03m    Parameters\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    367\u001b[0m \n\u001b[1;32m    368\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 369\u001b[0m     tensors_by_name \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_convert_df_to_tensors\u001b[49m\u001b[43m(\u001b[49m\u001b[43mgdf\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    370\u001b[0m     rows_per_batch \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_rows_per_batch(\u001b[38;5;28mlen\u001b[39m(gdf))\n\u001b[1;32m    372\u001b[0m     tensor_batches \u001b[38;5;241m=\u001b[39m {}\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/dataloader/loader_base.py:549\u001b[0m, in \u001b[0;36mLoaderBase._convert_df_to_tensors\u001b[0;34m(self, gdf)\u001b[0m\n\u001b[1;32m    545\u001b[0m         \u001b[38;5;28;01mcontinue\u001b[39;00m\n\u001b[1;32m    547\u001b[0m leaves, col_offsets \u001b[38;5;241m=\u001b[39m pull_apart_list(column, device\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdevice)\n\u001b[0;32m--> 549\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(\u001b[43mleaves\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m, \u001b[38;5;28mlist\u001b[39m):\n\u001b[1;32m    550\u001b[0m     leaves, nest_offsets \u001b[38;5;241m=\u001b[39m pull_apart_list(leaves, device\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdevice)\n\u001b[1;32m    551\u001b[0m     col_offsets \u001b[38;5;241m=\u001b[39m nest_offsets\u001b[38;5;241m.\u001b[39miloc[col_offsets[:]]\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:1171\u001b[0m, in \u001b[0;36mSeries.__getitem__\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m   1169\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39miloc[arg]\n\u001b[1;32m   1170\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m-> 1171\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mloc\u001b[49m\u001b[43m[\u001b[49m\u001b[43marg\u001b[49m\u001b[43m]\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/nvtx/nvtx.py:101\u001b[0m, in \u001b[0;36mannotate.__call__.<locals>.inner\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     98\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(func)\n\u001b[1;32m     99\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21minner\u001b[39m(\u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[1;32m    100\u001b[0m     libnvtx_push_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mattributes, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[0;32m--> 101\u001b[0m     result \u001b[38;5;241m=\u001b[39m \u001b[43mfunc\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    102\u001b[0m     libnvtx_pop_range(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdomain\u001b[38;5;241m.\u001b[39mhandle)\n\u001b[1;32m    103\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:255\u001b[0m, in \u001b[0;36m_SeriesLocIndexer.__getitem__\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m    253\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m result\n\u001b[1;32m    254\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 255\u001b[0m     arg \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_loc_to_iloc(arg)\n\u001b[1;32m    256\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m (\u001b[38;5;167;01mTypeError\u001b[39;00m, \u001b[38;5;167;01mKeyError\u001b[39;00m, \u001b[38;5;167;01mIndexError\u001b[39;00m, \u001b[38;5;167;01mValueError\u001b[39;00m):\n\u001b[1;32m    257\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mKeyError\u001b[39;00m(arg)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/series.py:294\u001b[0m, in \u001b[0;36m_SeriesLocIndexer._loc_to_iloc\u001b[0;34m(self, arg)\u001b[0m\n\u001b[1;32m    292\u001b[0m         \u001b[38;5;28;01mreturn\u001b[39;00m found_index\n\u001b[1;32m    293\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 294\u001b[0m     found_index \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_frame\u001b[38;5;241m.\u001b[39mindex\u001b[38;5;241m.\u001b[39m_values\u001b[38;5;241m.\u001b[39mfind_first_value(\n\u001b[1;32m    295\u001b[0m         arg, closest\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mFalse\u001b[39;00m\n\u001b[1;32m    296\u001b[0m     )\n\u001b[1;32m    297\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m found_index\n\u001b[1;32m    298\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m (\u001b[38;5;167;01mTypeError\u001b[39;00m, \u001b[38;5;167;01mKeyError\u001b[39;00m, \u001b[38;5;167;01mIndexError\u001b[39;00m, \u001b[38;5;167;01mValueError\u001b[39;00m):\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/column/numerical.py:566\u001b[0m, in \u001b[0;36mNumericalColumn.find_first_value\u001b[0;34m(self, value, closest)\u001b[0m\n\u001b[1;32m    564\u001b[0m     \u001b[38;5;28;01melif\u001b[39;00m value \u001b[38;5;241m>\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmax():\n\u001b[1;32m    565\u001b[0m         \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m)\n\u001b[0;32m--> 566\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_find_value\u001b[49m\u001b[43m(\u001b[49m\u001b[43mvalue\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mclosest\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mcudautils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfind_first\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mgt\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/core/column/numerical.py:534\u001b[0m, in \u001b[0;36mNumericalColumn._find_value\u001b[0;34m(self, value, closest, find, compare)\u001b[0m\n\u001b[1;32m    532\u001b[0m found \u001b[38;5;241m=\u001b[39m \u001b[38;5;241m0\u001b[39m\n\u001b[1;32m    533\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[0;32m--> 534\u001b[0m     found \u001b[38;5;241m=\u001b[39m \u001b[43mfind\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    535\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mdata_array_view\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    536\u001b[0m \u001b[43m        \u001b[49m\u001b[43mvalue\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    537\u001b[0m \u001b[43m        \u001b[49m\u001b[43mmask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mmask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    538\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    539\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m found \u001b[38;5;241m==\u001b[39m \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m1\u001b[39m:\n\u001b[1;32m    540\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mis_monotonic_increasing \u001b[38;5;129;01mand\u001b[39;00m closest:\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/utils/cudautils.py:114\u001b[0m, in \u001b[0;36mfind_first\u001b[0;34m(arr, val, mask, compare)\u001b[0m\n\u001b[1;32m    100\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mfind_first\u001b[39m(arr, val, mask\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mNone\u001b[39;00m, compare\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124meq\u001b[39m\u001b[38;5;124m\"\u001b[39m):\n\u001b[1;32m    101\u001b[0m     \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m    102\u001b[0m \u001b[38;5;124;03m    Returns the index of the first occurrence of *val* in *arr*..\u001b[39;00m\n\u001b[1;32m    103\u001b[0m \u001b[38;5;124;03m    Or the first occurrence of *arr* *compare* *val*, if *compare* is not eq\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    111\u001b[0m \u001b[38;5;124;03m    compare: str ('gt', 'lt', or 'eq' (default))\u001b[39;00m\n\u001b[1;32m    112\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 114\u001b[0m     found_col \u001b[38;5;241m=\u001b[39m \u001b[43mfind_index_of_val\u001b[49m\u001b[43m(\u001b[49m\u001b[43marr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mval\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mmask\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mcompare\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mcompare\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    115\u001b[0m     found_col \u001b[38;5;241m=\u001b[39m found_col\u001b[38;5;241m.\u001b[39mfind_and_replace([arr\u001b[38;5;241m.\u001b[39msize], [\u001b[38;5;28;01mNone\u001b[39;00m], \u001b[38;5;28;01mTrue\u001b[39;00m)\n\u001b[1;32m    117\u001b[0m     min_index \u001b[38;5;241m=\u001b[39m found_col\u001b[38;5;241m.\u001b[39mmin()\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/cudf/utils/cudautils.py:93\u001b[0m, in \u001b[0;36mfind_index_of_val\u001b[0;34m(arr, val, mask, compare)\u001b[0m\n\u001b[1;32m     89\u001b[0m             gpu_mark_found_float\u001b[38;5;241m.\u001b[39mforall(found\u001b[38;5;241m.\u001b[39msize)(\n\u001b[1;32m     90\u001b[0m                 arr, val, found, arr\u001b[38;5;241m.\u001b[39msize\n\u001b[1;32m     91\u001b[0m             )\n\u001b[1;32m     92\u001b[0m         \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m---> 93\u001b[0m             \u001b[43mgpu_mark_found_int\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mforall\u001b[49m\u001b[43m(\u001b[49m\u001b[43mfound\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43msize\u001b[49m\u001b[43m)\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m     94\u001b[0m \u001b[43m                \u001b[49m\u001b[43marr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mval\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mfound\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43marr\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43msize\u001b[49m\n\u001b[1;32m     95\u001b[0m \u001b[43m            \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m     97\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m cudf\u001b[38;5;241m.\u001b[39mcore\u001b[38;5;241m.\u001b[39mcolumn\u001b[38;5;241m.\u001b[39mcolumn\u001b[38;5;241m.\u001b[39mas_column(found)\u001b[38;5;241m.\u001b[39mset_mask(mask)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:438\u001b[0m, in \u001b[0;36mForAll.__call__\u001b[0;34m(self, *args)\u001b[0m\n\u001b[1;32m    436\u001b[0m     specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mdispatcher\n\u001b[1;32m    437\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m--> 438\u001b[0m     specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mdispatcher\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mspecialize\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    439\u001b[0m blockdim \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_compute_thread_per_block(specialized)\n\u001b[1;32m    440\u001b[0m griddim \u001b[38;5;241m=\u001b[39m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mntasks \u001b[38;5;241m+\u001b[39m blockdim \u001b[38;5;241m-\u001b[39m \u001b[38;5;241m1\u001b[39m) \u001b[38;5;241m/\u001b[39m\u001b[38;5;241m/\u001b[39m blockdim\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:667\u001b[0m, in \u001b[0;36mCUDADispatcher.specialize\u001b[0;34m(self, *args)\u001b[0m\n\u001b[1;32m    664\u001b[0m targetoptions \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtargetoptions\n\u001b[1;32m    665\u001b[0m specialization \u001b[38;5;241m=\u001b[39m CUDADispatcher(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpy_func,\n\u001b[1;32m    666\u001b[0m                                 targetoptions\u001b[38;5;241m=\u001b[39mtargetoptions)\n\u001b[0;32m--> 667\u001b[0m \u001b[43mspecialization\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mcompile\u001b[49m\u001b[43m(\u001b[49m\u001b[43margtypes\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    668\u001b[0m specialization\u001b[38;5;241m.\u001b[39mdisable_compile()\n\u001b[1;32m    669\u001b[0m specialization\u001b[38;5;241m.\u001b[39m_specialized \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mTrue\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:796\u001b[0m, in \u001b[0;36mCUDADispatcher.compile\u001b[0;34m(self, sig)\u001b[0m\n\u001b[1;32m    794\u001b[0m     kernel \u001b[38;5;241m=\u001b[39m _Kernel(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpy_func, argtypes, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtargetoptions)\n\u001b[1;32m    795\u001b[0m     \u001b[38;5;66;03m# We call bind to force codegen, so that there is a cubin to cache\u001b[39;00m\n\u001b[0;32m--> 796\u001b[0m     \u001b[43mkernel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mbind\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    797\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_cache\u001b[38;5;241m.\u001b[39msave_overload(sig, kernel)\n\u001b[1;32m    799\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39madd_overload(kernel, argtypes)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/dispatcher.py:178\u001b[0m, in \u001b[0;36m_Kernel.bind\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    174\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mbind\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[1;32m    175\u001b[0m     \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m    176\u001b[0m \u001b[38;5;124;03m    Force binding to current CUDA context\u001b[39;00m\n\u001b[1;32m    177\u001b[0m \u001b[38;5;124;03m    \"\"\"\u001b[39;00m\n\u001b[0;32m--> 178\u001b[0m     \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_codelibrary\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mget_cufunc\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/codegen.py:208\u001b[0m, in \u001b[0;36mCUDACodeLibrary.get_cufunc\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    205\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m cufunc:\n\u001b[1;32m    206\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m cufunc\n\u001b[0;32m--> 208\u001b[0m cubin \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mget_cubin\u001b[49m\u001b[43m(\u001b[49m\u001b[43mcc\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdevice\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mcompute_capability\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    209\u001b[0m module \u001b[38;5;241m=\u001b[39m ctx\u001b[38;5;241m.\u001b[39mcreate_module_image(cubin)\n\u001b[1;32m    211\u001b[0m \u001b[38;5;66;03m# Load\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/codegen.py:181\u001b[0m, in \u001b[0;36mCUDACodeLibrary.get_cubin\u001b[0;34m(self, cc)\u001b[0m\n\u001b[1;32m    179\u001b[0m ptxes \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_ptxes(cc\u001b[38;5;241m=\u001b[39mcc)\n\u001b[1;32m    180\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m ptx \u001b[38;5;129;01min\u001b[39;00m ptxes:\n\u001b[0;32m--> 181\u001b[0m     \u001b[43mlinker\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43madd_ptx\u001b[49m\u001b[43m(\u001b[49m\u001b[43mptx\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencode\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    182\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m path \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_linking_files:\n\u001b[1;32m    183\u001b[0m     linker\u001b[38;5;241m.\u001b[39madd_file_guess_ext(path)\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/numba/cuda/cudadrv/driver.py:2708\u001b[0m, in \u001b[0;36mCtypesLinker.add_ptx\u001b[0;34m(self, ptx, name)\u001b[0m\n\u001b[1;32m   2705\u001b[0m     driver\u001b[38;5;241m.\u001b[39mcuLinkAddData(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mhandle, enums\u001b[38;5;241m.\u001b[39mCU_JIT_INPUT_PTX,\n\u001b[1;32m   2706\u001b[0m                          ptxbuf, \u001b[38;5;28mlen\u001b[39m(ptx), namebuf, \u001b[38;5;241m0\u001b[39m, \u001b[38;5;28;01mNone\u001b[39;00m, \u001b[38;5;28;01mNone\u001b[39;00m)\n\u001b[1;32m   2707\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m CudaAPIError \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[0;32m-> 2708\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m LinkerError(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;130;01m\\n\u001b[39;00m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;124m\"\u001b[39m \u001b[38;5;241m%\u001b[39m (e, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39merror_log))\n",
+      "\u001b[0;31mLinkerError\u001b[0m: [222] Call to cuLinkAddData results in UNKNOWN_CUDA_ERROR\nptxas application ptx input, line 9; fatal   : Unsupported .version 7.8; current version is '7.7'"
      ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.550110816955566,\n",
-       " 'recall_at_20': 0.2287944257259369,\n",
-       " 'mrr_at_20': 0.07337629050016403,\n",
-       " 'ndcg_at_20': 0.10753783583641052,\n",
-       " 'map_at_20': 0.07337629050016403,\n",
-       " 'precision_at_20': 0.011439722031354904,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 8.98563003540039}"
-      ]
-     },
-     "execution_count": 6,
-     "metadata": {},
-     "output_type": "execute_result"
     }
    ],
    "source": [
@@ -1193,7 +1374,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 34,
+   "execution_count": null,
    "id": "cd25c97a",
    "metadata": {},
    "outputs": [],
@@ -1205,7 +1386,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 35,
+   "execution_count": null,
    "id": "18476ff8",
    "metadata": {},
    "outputs": [],
@@ -1215,7 +1396,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 36,
+   "execution_count": null,
    "id": "019b49e7",
    "metadata": {},
    "outputs": [],
@@ -1225,267 +1406,31 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 37,
+   "execution_count": null,
    "id": "4d519e09",
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>sess_pid_seq</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>[2350, 27483, 2350, 221, 223, 450]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>[26562, 3233, 20844, 20946]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>[20611, 9566, 3411, 6358, 8434, 1282, 1218]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>[749, 476]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>[53988, 54681, 20488, 26337, 42209, 56005, 263...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>86548</th>\n",
-       "      <td>[6547, 5690]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>86549</th>\n",
-       "      <td>[20613, 30652, 20613]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>86550</th>\n",
-       "      <td>[6, 9, 6]</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>86551</th>\n",
-       "      <td>[2584, 6531, 16567, 5737, 6531, 19856, 2584, 1...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>86552</th>\n",
-       "      <td>[4793, 10632]</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>86553 rows × 1 columns</p>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "                                            sess_pid_seq\n",
-       "0                     [2350, 27483, 2350, 221, 223, 450]\n",
-       "1                            [26562, 3233, 20844, 20946]\n",
-       "2            [20611, 9566, 3411, 6358, 8434, 1282, 1218]\n",
-       "3                                             [749, 476]\n",
-       "4      [53988, 54681, 20488, 26337, 42209, 56005, 263...\n",
-       "...                                                  ...\n",
-       "86548                                       [6547, 5690]\n",
-       "86549                              [20613, 30652, 20613]\n",
-       "86550                                          [6, 9, 6]\n",
-       "86551  [2584, 6531, 16567, 5737, 6531, 19856, 2584, 1...\n",
-       "86552                                      [4793, 10632]\n",
-       "\n",
-       "[86553 rows x 1 columns]"
-      ]
-     },
-     "execution_count": 37,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "wf.fit_transform(train).compute()"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 48,
+   "execution_count": null,
    "id": "34f29750",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 110). These functions will not be directly callable after loading.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: t4rec_model/assets\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: t4rec_model/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:83: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  return generic_utils.serialize_keras_object(obj)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer.save('t4rec_model')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 49,
-   "id": "e8cba91e",
+   "execution_count": null,
+   "id": "47c206ca",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "rm -rf "
-   ]
+   "source": []
   },
   {
    "cell_type": "code",

From 60054c0a98a953a6844ae3e15a547e8ffb613b27 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Thu, 13 Apr 2023 21:29:35 +1000
Subject: [PATCH 10/15] update

---
 examples/usecases/transformers-next-item-prediction.ipynb | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/examples/usecases/transformers-next-item-prediction.ipynb b/examples/usecases/transformers-next-item-prediction.ipynb
index e864685a81..090453979d 100644
--- a/examples/usecases/transformers-next-item-prediction.ipynb
+++ b/examples/usecases/transformers-next-item-prediction.ipynb
@@ -1016,7 +1016,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.8.2"
+   "version": "3.8.10"
   }
  },
  "nbformat": 4,

From 7d42d4dee1b75c62c131d8ee66bbeaae992cbc99 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Fri, 14 Apr 2023 14:14:09 +1000
Subject: [PATCH 11/15] update

---
 ...nd_save_model_for_benchmarking-Copy1.ipynb | 1975 +++++++++++++++++
 1 file changed, 1975 insertions(+)
 create mode 100644 T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
new file mode 100644
index 0000000000..74b19fa9d3
--- /dev/null
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
@@ -0,0 +1,1975 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "d062ceda",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%bash\n",
+    "\n",
+    "# # cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
+    "# cd /models && git checkout main && git pull origin main && pip install .\n",
+    "# cd /core && git checkout main && git pull origin main && pip install .\n",
+    "# cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
+    "# cd /systems && git checkout main && git pull origin main && pip install .\n",
+    "# cd /dataloader && git checkout main && git pull origin main && pip install .\n",
+    "\n",
+    "# ---\n",
+    "# pip install matplotlib"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "e9929dc8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.7.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Downloading...\n",
+      "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=0dd96474-79af-47bb-9148-b96d64204e14\n",
+      "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:12<00:00, 3.62MB/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
+      "Hit:2 http://archive.ubuntu.com/ubuntu focal InRelease\n",
+      "Hit:3 http://security.ubuntu.com/ubuntu focal-security InRelease\n",
+      "Hit:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease\n",
+      "Hit:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease\n",
+      "Reading package lists...\n",
+      "Reading package lists...\n",
+      "Building dependency tree...\n",
+      "Reading state information...\n",
+      "unzip is already the newest version (6.0-25ubuntu1.1).\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 98 not upgraded.\n",
+      "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
+      "   creating: ecom_dataset/0001/\n",
+      "  inflating: ecom_dataset/0001/valid.parquet  \n",
+      " extracting: ecom_dataset/0001/.zip  \n",
+      "  inflating: ecom_dataset/0001/train.parquet  \n",
+      "  inflating: ecom_dataset/0001/test.parquet  \n",
+      "   creating: ecom_dataset/0002/\n",
+      "  inflating: ecom_dataset/0002/valid.parquet  \n",
+      "  inflating: ecom_dataset/0002/train.parquet  \n",
+      "  inflating: ecom_dataset/0002/test.parquet  \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4a0105a7",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# !cd /dataloader && git checkout main && git pull origin main && git checkout ce2215d8f871d0fb8c71900f7b914a226aea7c24 && pip install ."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8101aa27",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# !cd /core && git checkout main && git pull origin main && pip install ."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "0f799172",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%writefile /core/merlin/dag/graph.py\n",
+    "\n",
+    "# #\n",
+    "# # Copyright (c) 2022, NVIDIA CORPORATION.\n",
+    "# #\n",
+    "# # Licensed under the Apache License, Version 2.0 (the \"License\");\n",
+    "# # you may not use this file except in compliance with the License.\n",
+    "# # You may obtain a copy of the License at\n",
+    "# #\n",
+    "# #     http://www.apache.org/licenses/LICENSE-2.0\n",
+    "# #\n",
+    "# # Unless required by applicable law or agreed to in writing, software\n",
+    "# # distributed under the License is distributed on an \"AS IS\" BASIS,\n",
+    "# # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n",
+    "# # See the License for the specific language governing permissions and\n",
+    "# # limitations under the License.\n",
+    "# #\n",
+    "\n",
+    "# import logging\n",
+    "# from collections import deque\n",
+    "# from typing import Dict, Optional\n",
+    "\n",
+    "# from merlin.dag.node import (\n",
+    "#     Node,\n",
+    "#     _combine_schemas,\n",
+    "#     iter_nodes,\n",
+    "#     postorder_iter_nodes,\n",
+    "#     preorder_iter_nodes,\n",
+    "# )\n",
+    "# from merlin.schema import Schema\n",
+    "\n",
+    "# LOG = logging.getLogger(\"merlin\")\n",
+    "\n",
+    "\n",
+    "# class Graph:\n",
+    "#     \"\"\"\n",
+    "#     Represents an DAG composed of Nodes, each of which contains an operator that\n",
+    "#     transforms dataframes or dataframe-like data\n",
+    "#     \"\"\"\n",
+    "\n",
+    "#     def __init__(self, output_node: Node, subgraphs: Optional[Dict[str, Node]] = None):\n",
+    "#         self.output_node = output_node\n",
+    "#         self.subgraphs = subgraphs or {}\n",
+    "\n",
+    "#         parents_with_deps = self.output_node.parents_with_dependencies\n",
+    "#         parents_with_deps.append(output_node)\n",
+    "\n",
+    "#         for name, sg in self.subgraphs.items():\n",
+    "#             if sg not in parents_with_deps:\n",
+    "#                 raise ValueError(\n",
+    "#                     f\"The output node of subgraph {name} does not exist in the provided graph.\"\n",
+    "#                 )\n",
+    "\n",
+    "#     def subgraph(self, name: str) -> \"Graph\":\n",
+    "#         if name not in self.subgraphs.keys():\n",
+    "#             raise ValueError(f\"No subgraph named {name}. Options are: {self.subgraphs.keys()}\")\n",
+    "#         return Graph(self.subgraphs[name])\n",
+    "\n",
+    "#     @property\n",
+    "#     def input_dtypes(self):\n",
+    "#         if self.input_schema:\n",
+    "#             return {\n",
+    "#                 name: col_schema.dtype\n",
+    "#                 for name, col_schema in self.input_schema.column_schemas.items()\n",
+    "#             }\n",
+    "#         else:\n",
+    "#             return {}\n",
+    "\n",
+    "#     @property\n",
+    "#     def output_dtypes(self):\n",
+    "#         if self.output_schema:\n",
+    "#             return {\n",
+    "#                 name: col_schema.dtype\n",
+    "#                 for name, col_schema in self.output_schema.column_schemas.items()\n",
+    "#             }\n",
+    "#         else:\n",
+    "#             return {}\n",
+    "\n",
+    "#     @property\n",
+    "#     def column_mapping(self):\n",
+    "#         nodes = preorder_iter_nodes(self.output_node)\n",
+    "#         column_mapping = self.output_node.column_mapping\n",
+    "#         for node in list(nodes)[1:]:\n",
+    "#             node_map = node.column_mapping\n",
+    "#             for output_col, input_cols in column_mapping.items():\n",
+    "#                 early_inputs = []\n",
+    "#                 for input_col in input_cols:\n",
+    "#                     early_inputs += node_map.get(input_col, [input_col])\n",
+    "#                 column_mapping[output_col] = early_inputs\n",
+    "\n",
+    "#         return column_mapping\n",
+    "\n",
+    "#     def construct_schema(self, root_schema: Schema, preserve_dtypes=False) -> \"Graph\":\n",
+    "#         \"\"\"\n",
+    "#         Given the schema of a dataset to transform, determine the output schema of the graph\n",
+    "\n",
+    "#         Parameters\n",
+    "#         ----------\n",
+    "#         root_schema : Schema\n",
+    "#             The schema of a dataset to be transformed with this DAG\n",
+    "#         preserve_dtypes : bool, optional\n",
+    "#             Whether to keep any dtypes that may already be present in the schemas, by default False\n",
+    "\n",
+    "#         Returns\n",
+    "#         -------\n",
+    "#         Graph\n",
+    "#             This DAG after the schemas have been filled in\n",
+    "#         \"\"\"\n",
+    "#         nodes = list(postorder_iter_nodes(self.output_node))\n",
+    "\n",
+    "#         self._compute_node_schemas(root_schema, nodes, preserve_dtypes)\n",
+    "#         # self._validate_node_schemas(root_schema, nodes, preserve_dtypes)\n",
+    "\n",
+    "#         return self\n",
+    "\n",
+    "#     def _compute_node_schemas(self, root_schema, nodes, preserve_dtypes=False):\n",
+    "#         for node in nodes:\n",
+    "#             node.compute_schemas(root_schema, preserve_dtypes=preserve_dtypes)\n",
+    "\n",
+    "#     def _validate_node_schemas(self, root_schema, nodes, strict_dtypes=False):\n",
+    "#         for node in nodes:\n",
+    "#             node.validate_schemas(root_schema, strict_dtypes=strict_dtypes)\n",
+    "\n",
+    "#     @property\n",
+    "#     def input_schema(self):\n",
+    "#         # leaf_node input and output schemas are the same (aka selection)\n",
+    "#         return _combine_schemas(self.leaf_nodes)\n",
+    "\n",
+    "#     @property\n",
+    "#     def leaf_nodes(self):\n",
+    "#         return [node for node in postorder_iter_nodes(self.output_node) if not node.parents]\n",
+    "\n",
+    "#     @property\n",
+    "#     def output_schema(self):\n",
+    "#         return self.output_node.output_schema\n",
+    "\n",
+    "#     def _input_columns(self):\n",
+    "#         input_cols = []\n",
+    "#         for node in iter_nodes([self.output_node]):\n",
+    "#             upstream_output_cols = []\n",
+    "\n",
+    "#             for upstream_node in node.parents_with_dependencies:\n",
+    "#                 upstream_output_cols += upstream_node.output_columns.names\n",
+    "\n",
+    "#             upstream_output_cols = _get_unique(upstream_output_cols)\n",
+    "#             input_cols += list(set(node.input_columns.names) - set(upstream_output_cols))\n",
+    "\n",
+    "#         return _get_unique(input_cols)\n",
+    "\n",
+    "#     def remove_inputs(self, to_remove):\n",
+    "#         \"\"\"\n",
+    "#         Removes columns from a Graph\n",
+    "\n",
+    "#         Starting at the leaf nodes, trickle down looking for columns to remove,\n",
+    "#         when found remove but then must propagate the removal of any other\n",
+    "#         output columns derived from that column.\n",
+    "\n",
+    "#         Parameters\n",
+    "#         -----------\n",
+    "#         graph : Graph\n",
+    "#             The graph to remove columns from\n",
+    "#         to_remove : array_like\n",
+    "#             A list of input column names to remove from the graph\n",
+    "\n",
+    "#         Returns\n",
+    "#         -------\n",
+    "#         Graph\n",
+    "#             The same graph with columns removed\n",
+    "#         \"\"\"\n",
+    "#         nodes_to_process = deque([(node, to_remove) for node in self.leaf_nodes])\n",
+    "\n",
+    "#         while nodes_to_process:\n",
+    "#             node, columns_to_remove = nodes_to_process.popleft()\n",
+    "#             if node.input_schema and len(node.input_schema):\n",
+    "#                 output_columns_to_remove = node.remove_inputs(columns_to_remove)\n",
+    "\n",
+    "#                 for child in node.children:\n",
+    "#                     nodes_to_process.append(\n",
+    "#                         (child, list(set(to_remove + output_columns_to_remove)))\n",
+    "#                     )\n",
+    "\n",
+    "#                     if not len(node.input_schema):\n",
+    "#                         node.remove_child(child)\n",
+    "\n",
+    "#             # remove any dependencies that do not have an output schema\n",
+    "#             node.dependencies = [\n",
+    "#                 dep for dep in node.dependencies if dep.output_schema and len(dep.output_schema)\n",
+    "#             ]\n",
+    "\n",
+    "#             if not node.input_schema or not len(node.input_schema):\n",
+    "#                 for parent in node.parents:\n",
+    "#                     parent.remove_child(node)\n",
+    "#                 for dependency in node.dependencies:\n",
+    "#                     dependency.remove_child(node)\n",
+    "#                 del node\n",
+    "\n",
+    "#         return self\n",
+    "\n",
+    "#     @classmethod\n",
+    "#     def get_nodes_by_op_type(cls, nodes, op_type):\n",
+    "#         return set(node for node in iter_nodes(nodes) if isinstance(node.op, op_type))\n",
+    "\n",
+    "\n",
+    "# def _get_schemaless_nodes(nodes):\n",
+    "#     schemaless_nodes = []\n",
+    "#     for node in iter_nodes(nodes):\n",
+    "#         if node.input_schema is None:\n",
+    "#             schemaless_nodes.append(node)\n",
+    "\n",
+    "#     return set(schemaless_nodes)\n",
+    "\n",
+    "\n",
+    "# def _get_unique(cols):\n",
+    "#     # Need to preserve order in unique-column list\n",
+    "#     return list({x: x for x in cols}.keys())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "ab4f272d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# !cd /core && pip install ."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-04-13 11:21:28.090236: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-04-13 11:21:30.471061: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:30.471514: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:30.471678: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[INFO]: sparse_operation_kit is imported\n",
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.base has been moved to tensorflow.python.trackable.base. The old module will be deleted in version 2.11.\n",
+      "[SOK INFO] Import /usr/local/lib/python3.8/dist-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg/sparse_operation_kit/lib/libsok_experiment.so\n",
+      "[SOK INFO] Initialize finished, communication tool: horovod\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-04-13 11:21:30.757567: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:21:30.758435: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:30.758639: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:30.758792: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:31.508591: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:31.508802: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:31.508961: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:21:31.509071: W tensorflow/core/common_runtime/gpu/gpu_bfc_allocator.cc:42] Overriding orig_value setting because the TF_FORCE_GPU_ALLOW_GROWTH environment variable is set. Original config value was 0.\n",
+      "2023-04-13 11:21:31.509079: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-04-13 11:21:31.509140: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'\n",
+    "seq_name = target"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 1\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "410ea223",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# seq_name = 'seq'\n",
+    "# target = seq_name"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "4328f03a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from nvtabular.inference.triton import export_tensorflow_ensemble\n",
+    "from nvtabular import Workflow\n",
+    "from nvtabular.ops import Categorify, Rename"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4571b92b",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "d5a9dd50",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ops = ['sess_pid_seq'] >> Categorify(dtype=np.int32) #>> Rename(name=seq_name)\n",
+    "\n",
+    "wf = Workflow(ops)\n",
+    "\n",
+    "train = wf.fit_transform(train)\n",
+    "valid = wf.transform(valid)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "3116726e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# cat rees46_schema_modified.pbtxt"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "69e8f95c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%writefile rees46_schema_modified_2.pbtxt\n",
+    "\n",
+    "# feature {\n",
+    "#   name: \"seq\"\n",
+    "#   value_count {\n",
+    "#     min: 2\n",
+    "#   }\n",
+    "#   type: INT\n",
+    "#   int_domain {\n",
+    "#     name: \"seq\"\n",
+    "#     min: 1\n",
+    "#     max: 390000\n",
+    "#     is_categorical: true\n",
+    "#   }\n",
+    "#   annotation {\n",
+    "#     tag: \"item_id\"\n",
+    "#     tag: \"list\"\n",
+    "#     tag: \"categorical\"\n",
+    "#     tag: \"item\"\n",
+    "#   }\n",
+    "# }"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        './',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name(seq_name)\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "523fe2ac",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n",
+      "2023-04-13 11:21:38.342588: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 106s 144ms/step - loss: 7.3129 - recall_at_20: 0.1424 - mrr_at_20: 0.0802 - ndcg_at_20: 0.0939 - map_at_20: 0.0802 - precision_at_20: 0.0071 - regularization_loss: 0.0000e+00 - loss_batch: 7.3149\n",
+      "84/84 [==============================] - 4s 27ms/step - loss: 8.5848 - recall_at_20: 0.2229 - mrr_at_20: 0.0736 - ndcg_at_20: 0.1066 - map_at_20: 0.0736 - precision_at_20: 0.0111 - regularization_loss: 0.0000e+00 - loss_batch: 8.5971\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.584781646728516,\n",
+       " 'recall_at_20': 0.2308632731437683,\n",
+       " 'mrr_at_20': 0.07471762597560883,\n",
+       " 'ndcg_at_20': 0.10908268392086029,\n",
+       " 'map_at_20': 0.07471762597560883,\n",
+       " 'precision_at_20': 0.011543160304427147,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 9.130510330200195}"
+      ]
+     },
+     "execution_count": 17,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()\n",
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")\n",
+    "\n",
+    "# model_transformer.save('t4rec_model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "5bd66ba8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /tmp/tmpkph1f3_r/model.savedmodel/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /tmp/tmpkph1f3_r/model.savedmodel/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:100: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return generic_utils.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.systems.dag.ops.workflow import TransformWorkflow\n",
+    "from merlin.systems.dag.ops.tensorflow import PredictTensorflow\n",
+    "\n",
+    "serving_operators = [seq_name] >> TransformWorkflow(wf) >> PredictTensorflow(model_transformer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "3ef1e5fc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# import merlin.models.tf as mm\n",
+    "# import tensorflow as tf\n",
+    "# tf_model_path = os.path.join('t4rec_model')\n",
+    "\n",
+    "# model = tf.keras.models.load_model(tf_model_path)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "e2a7b6ee",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf /workspace/models_for_benchmarking\n",
+    "mkdir -p /workspace/models_for_benchmarking"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "55ad012c",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>name</th>\n",
+       "      <th>tags</th>\n",
+       "      <th>dtype</th>\n",
+       "      <th>is_list</th>\n",
+       "      <th>is_ragged</th>\n",
+       "      <th>properties.domain.min</th>\n",
+       "      <th>properties.domain.max</th>\n",
+       "      <th>properties.domain.name</th>\n",
+       "      <th>properties.value_count.min</th>\n",
+       "      <th>properties.value_count.max</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>(Tags.CATEGORICAL, Tags.ITEM, Tags.ID, Tags.IT...</td>\n",
+       "      <td>DType(name='int64', element_type=&lt;ElementType....</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1</td>\n",
+       "      <td>390000</td>\n",
+       "      <td>sess_pid_seq</td>\n",
+       "      <td>2</td>\n",
+       "      <td>None</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "[{'name': 'sess_pid_seq', 'tags': {<Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>, <Tags.ITEM_ID: 'item_id'>, <Tags.LIST: 'list'>}, 'properties': {'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), 'is_list': True, 'is_ragged': True}]"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train.schema.select_by_name('sess_pid_seq')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "1a39b4f8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:100: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return generic_utils.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.systems.dag.ensemble import Ensemble\n",
+    "\n",
+    "ensemble = Ensemble(serving_operators, wf.input_schema)\n",
+    "ens_conf, node_confs = ensemble.export(\"/workspace/models_for_benchmarking\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "id": "1720a5af",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ls: cannot access '/workspace/models_for_benchmarking/1': No such file or directory\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "ls /workspace/models_for_benchmarking/1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "id": "d7cdc6cc",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "<subprocess.Popen at 0x7fd4c501f0a0>"
+      ]
+     },
+     "execution_count": 24,
+     "metadata": {},
+     "output_type": "execute_result"
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "I0413 11:24:28.716029 1527 pinned_memory_manager.cc:240] Pinned memory pool is created at '0x7f7f2a000000' with size 268435456\n",
+      "I0413 11:24:28.716361 1527 cuda_memory_manager.cc:105] CUDA memory pool is created on device 0 with size 67108864\n",
+      "I0413 11:24:28.718446 1527 model_lifecycle.cc:459] loading: 0_transformworkflowtriton:1\n",
+      "I0413 11:24:28.718465 1527 model_lifecycle.cc:459] loading: 1_predicttensorflowtriton:1\n",
+      "I0413 11:24:28.718478 1527 model_lifecycle.cc:459] loading: executor_model:1\n",
+      "I0413 11:24:28.924940 1527 tensorflow.cc:2536] TRITONBACKEND_Initialize: tensorflow\n",
+      "I0413 11:24:28.924955 1527 tensorflow.cc:2546] Triton TRITONBACKEND API version: 1.10\n",
+      "I0413 11:24:28.924960 1527 tensorflow.cc:2552] 'tensorflow' TRITONBACKEND API version: 1.10\n",
+      "I0413 11:24:28.924962 1527 tensorflow.cc:2576] backend configuration:\n",
+      "{\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}}\n",
+      "2023-04-13 11:24:30.207841: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:24:32.085748: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:32.086174: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:32.086365: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "I0413 11:24:33.803267 1527 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: executor_model_0 (GPU device 0)\n",
+      "2023-04-13 11:24:35.316462: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:24:37.126873: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.127251: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.127427: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "I0413 11:24:37.157059 1527 tensorflow.cc:2642] TRITONBACKEND_ModelInitialize: 1_predicttensorflowtriton (version 1)\n",
+      "I0413 11:24:37.157179 1527 model_lifecycle.cc:694] successfully loaded 'executor_model' version 1\n",
+      "2023-04-13 11:24:37.157805: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:37.178699: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
+      "2023-04-13 11:24:37.178742: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:37.178876: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:24:37.179781: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.196068: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.196289: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.196570: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.196747: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.196909: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:37.197031: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
+      "2023-04-13 11:24:37.203975: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 38618 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "2023-04-13 11:24:37.262568: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:354] MLIR V1 optimization pass is not enabled\n",
+      "2023-04-13 11:24:37.271889: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n",
+      "2023-04-13 11:24:37.678751: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:37.745105: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 587310 microseconds.\n",
+      "2023-04-13 11:24:39.105154: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:24:40.997532: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:40.997994: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:40.998186: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "I0413 11:24:42.684588 1527 tensorflow.cc:2691] TRITONBACKEND_ModelInstanceInitialize: 1_predicttensorflowtriton_0 (GPU device 0)\n",
+      "2023-04-13 11:24:42.684902: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:42.702205: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
+      "2023-04-13 11:24:42.702239: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:42.702447: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:42.702659: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:42.702822: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:42.703025: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:42.703189: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:42.703311: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 38618 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "2023-04-13 11:24:42.742722: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-04-13 11:24:43.330311: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-04-13 11:24:43.395816: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 710922 microseconds.\n",
+      "I0413 11:24:43.395921 1527 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: 0_transformworkflowtriton_0 (GPU device 0)\n",
+      "I0413 11:24:43.396107 1527 model_lifecycle.cc:694] successfully loaded '1_predicttensorflowtriton' version 1\n",
+      "2023-04-13 11:24:44.668497: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-04-13 11:24:46.525315: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:46.525768: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-04-13 11:24:46.525978: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "I0413 11:24:46.583396 1527 model_lifecycle.cc:694] successfully loaded '0_transformworkflowtriton' version 1\n",
+      "I0413 11:24:46.583508 1527 server.cc:563] \n",
+      "+------------------+------+\n",
+      "| Repository Agent | Path |\n",
+      "+------------------+------+\n",
+      "+------------------+------+\n",
+      "\n",
+      "I0413 11:24:46.583587 1527 server.cc:590] \n",
+      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "| Backend    | Path                                                            | Config                                                                                                                                                        |\n",
+      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "| python     | /opt/tritonserver/backends/python/libtriton_python.so           | {\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}} |\n",
+      "| tensorflow | /opt/tritonserver/backends/tensorflow2/libtriton_tensorflow2.so | {\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}} |\n",
+      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "\n",
+      "I0413 11:24:46.583634 1527 server.cc:633] \n",
+      "+---------------------------+---------+--------+\n",
+      "| Model                     | Version | Status |\n",
+      "+---------------------------+---------+--------+\n",
+      "| 0_transformworkflowtriton | 1       | READY  |\n",
+      "| 1_predicttensorflowtriton | 1       | READY  |\n",
+      "| executor_model            | 1       | READY  |\n",
+      "+---------------------------+---------+--------+\n",
+      "\n",
+      "I0413 11:24:46.610538 1527 metrics.cc:864] Collecting metrics for GPU 0: Quadro RTX 8000\n",
+      "I0413 11:24:46.610778 1527 metrics.cc:757] Collecting CPU metrics\n",
+      "I0413 11:24:46.610913 1527 tritonserver.cc:2264] \n",
+      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "| Option                           | Value                                                                                                                                                                                                |\n",
+      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "| server_id                        | triton                                                                                                                                                                                               |\n",
+      "| server_version                   | 2.28.0                                                                                                                                                                                               |\n",
+      "| server_extensions                | classification sequence model_repository model_repository(unload_dependents) schedule_policy model_configuration system_shared_memory cuda_shared_memory binary_tensor_data statistics trace logging |\n",
+      "| model_repository_path[0]         | /workspace/models_for_benchmarking/                                                                                                                                                                  |\n",
+      "| model_control_mode               | MODE_NONE                                                                                                                                                                                            |\n",
+      "| strict_model_config              | 0                                                                                                                                                                                                    |\n",
+      "| rate_limit                       | OFF                                                                                                                                                                                                  |\n",
+      "| pinned_memory_pool_byte_size     | 268435456                                                                                                                                                                                            |\n",
+      "| cuda_memory_pool_byte_size{0}    | 67108864                                                                                                                                                                                             |\n",
+      "| response_cache_byte_size         | 0                                                                                                                                                                                                    |\n",
+      "| min_supported_compute_capability | 6.0                                                                                                                                                                                                  |\n",
+      "| strict_readiness                 | 1                                                                                                                                                                                                    |\n",
+      "| exit_timeout                     | 30                                                                                                                                                                                                   |\n",
+      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
+      "\n",
+      "I0413 11:24:46.611676 1527 grpc_server.cc:4819] Started GRPCInferenceService at 0.0.0.0:8001\n",
+      "I0413 11:24:46.611833 1527 http_server.cc:3477] Started HTTPService at 0.0.0.0:8000\n",
+      "I0413 11:24:46.652586 1527 http_server.cc:184] Started Metrics Service at 0.0.0.0:8002\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-04-13 11:25:37.504455: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+     ]
+    }
+   ],
+   "source": [
+    "import nvtabular.inference.triton as nvt_triton\n",
+    "import tritonclient.grpc as grpcclient\n",
+    "import subprocess\n",
+    "\n",
+    "subprocess.Popen(['tritonserver', '--model-repository=/workspace/models_for_benchmarking/'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6f63b425",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4a772eeb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# !pkill triton"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f6ed7b5a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import tritonhttpclient\n",
+    "try:\n",
+    "    triton_client = tritonhttpclient.InferenceServerClient(url=\"localhost:8000\", verbose=True)\n",
+    "    print(\"client created.\")\n",
+    "except Exception as e:\n",
+    "    print(\"channel creation failed: \" + str(e))\n",
+    "triton_client.is_server_live()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "10c2a62e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "validation_data.iloc[]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2c2723e9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.systems.triton import convert_df_to_triton_input\n",
+    "\n",
+    "validation_data = valid.compute()\n",
+    "inputs = convert_df_to_triton_input(wf.input_schema, validation_data.iloc[:1])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "fa9fc0dd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "inputs[0].name()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6ae7eb08",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "inputs[0].shape()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ac3596c3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "inputs[1].name()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "18f8e77d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "inputs[1].shape()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "292b58da",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "validation_data.iloc[:1]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f8e1fd90",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "wf.input_schema"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5a79c58f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import tritonclient.grpc as grpcclient\n",
+    "\n",
+    "with grpcclient.InferenceServerClient(\"localhost:8001\") as client:\n",
+    "    response = client.infer('1_predicttensorflowtriton', inputs)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b6dd51a6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "response.get_output('sess_pid_seq/categorical_output')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ba6712bb",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "637eb3f0",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "fd62f641",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "d1bc6530",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:absl:Function `_wrapped_model` contains input name(s) sess_pid_seq with unsupported characters which will be renamed to sess_pid_seq_1 in the SavedModel.\n",
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 110). These functions will not be directly callable after loading.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/0_predicttensorflowtriton/1/model.savedmodel/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/0_predicttensorflowtriton/1/model.savedmodel/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:83: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return generic_utils.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
+     ]
+    }
+   ],
+   "source": [
+    "from merlin.systems.dag.ensemble import Ensemble\n",
+    "\n",
+    "ensemble = Ensemble(serving_operators, train.schema)\n",
+    "ens_conf, node_confs = ensemble.export(\"/workspace/models_for_benchmarking\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "8d390999",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "name: \"0_predicttensorflowtriton\"\r\n",
+      "platform: \"tensorflow_savedmodel\"\r\n",
+      "input {\r\n",
+      "  name: \"sess_pid_seq\"\r\n",
+      "  data_type: TYPE_INT32\r\n",
+      "  dims: -1\r\n",
+      "  dims: 1\r\n",
+      "}\r\n",
+      "input {\r\n",
+      "  name: \"sess_pid_seq_1\"\r\n",
+      "  data_type: TYPE_INT32\r\n",
+      "  dims: -1\r\n",
+      "  dims: 1\r\n",
+      "}\r\n",
+      "output {\r\n",
+      "  name: \"sess_pid_seq/categorical_output\"\r\n",
+      "  data_type: TYPE_FP32\r\n",
+      "  dims: -1\r\n",
+      "  dims: 390001\r\n",
+      "}\r\n",
+      "parameters {\r\n",
+      "  key: \"TF_GRAPH_TAG\"\r\n",
+      "  value {\r\n",
+      "    string_value: \"serve\"\r\n",
+      "  }\r\n",
+      "}\r\n",
+      "parameters {\r\n",
+      "  key: \"TF_SIGNATURE_DEF\"\r\n",
+      "  value {\r\n",
+      "    string_value: \"serving_default\"\r\n",
+      "  }\r\n",
+      "}\r\n",
+      "backend: \"tensorflow\"\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "cat /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "f7fe741c",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Overwriting /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%writefile /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt\n",
+    "\n",
+    "name: \"0_predicttensorflowtriton\"\n",
+    "platform: \"tensorflow_savedmodel\"\n",
+    "input {\n",
+    "  name: \"sess_pid_seq\"\n",
+    "  data_type: TYPE_INT32\n",
+    "  dims: -1\n",
+    "  dims: 1\n",
+    "}\n",
+    "input {\n",
+    "  name: \"sess_pid_seq_1\"\n",
+    "  data_type: TYPE_INT32\n",
+    "  dims: -1\n",
+    "  dims: 1\n",
+    "}\n",
+    "output {\n",
+    "  name: \"sess_pid_seq/categorical_output\"\n",
+    "  data_type: TYPE_FP32\n",
+    "  dims: -1\n",
+    "  dims: 390001\n",
+    "}\n",
+    "parameters {\n",
+    "  key: \"TF_GRAPH_TAG\"\n",
+    "  value {\n",
+    "    string_value: \"serve\"\n",
+    "  }\n",
+    "}\n",
+    "parameters {\n",
+    "  key: \"TF_SIGNATURE_DEF\"\n",
+    "  value {\n",
+    "    string_value: \"serving_default\"\n",
+    "  }\n",
+    "}\n",
+    "backend: \"tensorflow\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "9cfe8bca",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "name: \"executor_model\"\r\n",
+      "platform: \"merlin_executor\"\r\n",
+      "input {\r\n",
+      "  name: \"sess_pid_seq__values\"\r\n",
+      "  data_type: TYPE_INT64\r\n",
+      "  dims: -1\r\n",
+      "  dims: -1\r\n",
+      "}\r\n",
+      "input {\r\n",
+      "  name: \"sess_pid_seq__lengths\"\r\n",
+      "  data_type: TYPE_INT32\r\n",
+      "  dims: -1\r\n",
+      "  dims: -1\r\n",
+      "}\r\n",
+      "output {\r\n",
+      "  name: \"sess_pid_seq/categorical_output\"\r\n",
+      "  data_type: TYPE_FP32\r\n",
+      "  dims: -1\r\n",
+      "  dims: 390001\r\n",
+      "}\r\n",
+      "backend: \"python\"\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "cat /workspace/models_for_benchmarking/executor_model/config.pbtxt"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "a659255d",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Overwriting /workspace/models_for_benchmarking/executor_model/config.pbtxt\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%writefile /workspace/models_for_benchmarking/executor_model/config.pbtxt\n",
+    "\n",
+    "name: \"executor_model\"\n",
+    "platform: \"merlin_executor\"\n",
+    "input {\n",
+    "  name: \"sess_pid_seq__values\"\n",
+    "  data_type: TYPE_INT64\n",
+    "  dims: -1\n",
+    "  dims: -1\n",
+    "}\n",
+    "input {\n",
+    "  name: \"sess_pid_seq__nnzs\"\n",
+    "  data_type: TYPE_INT64\n",
+    "  dims: -1\n",
+    "  dims: -1\n",
+    "}\n",
+    "output {\n",
+    "  name: \"sess_pid_seq/categorical_output\"\n",
+    "  data_type: TYPE_FP32\n",
+    "  dims: -1\n",
+    "  dims: 390001\n",
+    "}\n",
+    "backend: \"python\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "ddf2dc55",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "# Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.\r\n",
+      "#\r\n",
+      "# Redistribution and use in source and binary forms, with or without\r\n",
+      "# modification, are permitted provided that the following conditions\r\n",
+      "# are met:\r\n",
+      "#  * Redistributions of source code must retain the above copyright\r\n",
+      "#    notice, this list of conditions and the following disclaimer.\r\n",
+      "#  * Redistributions in binary form must reproduce the above copyright\r\n",
+      "#    notice, this list of conditions and the following disclaimer in the\r\n",
+      "#    documentation and/or other materials provided with the distribution.\r\n",
+      "#  * Neither the name of NVIDIA CORPORATION nor the names of its\r\n",
+      "#    contributors may be used to endorse or promote products derived\r\n",
+      "#    from this software without specific prior written permission.\r\n",
+      "#\r\n",
+      "# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS ``AS IS'' AND ANY\r\n",
+      "# EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE\r\n",
+      "# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR\r\n",
+      "# PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE COPYRIGHT OWNER OR\r\n",
+      "# CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,\r\n",
+      "# EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,\r\n",
+      "# PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR\r\n",
+      "# PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY\r\n",
+      "# OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT\r\n",
+      "# (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE\r\n",
+      "# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\r\n",
+      "import pathlib\r\n",
+      "from pathlib import Path\r\n",
+      "\r\n",
+      "from merlin.dag import postorder_iter_nodes\r\n",
+      "from merlin.systems.dag import Ensemble\r\n",
+      "from merlin.systems.dag.runtimes.triton import TritonExecutorRuntime\r\n",
+      "from merlin.systems.triton.conversions import (\r\n",
+      "    dict_array_to_triton_response,\r\n",
+      "    triton_request_to_dict_array,\r\n",
+      ")\r\n",
+      "from merlin.systems.triton.utils import triton_error_handling, triton_multi_request\r\n",
+      "\r\n",
+      "\r\n",
+      "class TritonPythonModel:\r\n",
+      "    \"\"\"Model for Triton Python Backend.\r\n",
+      "\r\n",
+      "    Every Python model must have \"TritonPythonModel\" as the class name\r\n",
+      "    \"\"\"\r\n",
+      "\r\n",
+      "    def initialize(self, args):\r\n",
+      "        \"\"\"Called only once when the model is being loaded. Allowing\r\n",
+      "        the model to initialize any state associated with this model.\r\n",
+      "\r\n",
+      "        Parameters\r\n",
+      "        ----------\r\n",
+      "        args : dict\r\n",
+      "          Both keys and values are strings. The dictionary keys and values are:\r\n",
+      "          * model_config: A JSON string containing the model configuration\r\n",
+      "          * model_instance_kind: A string containing model instance kind\r\n",
+      "          * model_instance_device_id: A string containing model instance device ID\r\n",
+      "          * model_repository: Model repository path\r\n",
+      "          * model_version: Model version\r\n",
+      "          * model_name: Model name\r\n",
+      "        \"\"\"\r\n",
+      "        # Arg parsing\r\n",
+      "        model_repo = args[\"model_repository\"]\r\n",
+      "        repository_path = _parse_model_repository(model_repo)\r\n",
+      "\r\n",
+      "        ensemble_path = (\r\n",
+      "            Path(repository_path) / args[\"model_name\"] / str(args[\"model_version\"]) / \"ensemble\"\r\n",
+      "        )\r\n",
+      "\r\n",
+      "        self.ensemble = Ensemble.load(str(ensemble_path))\r\n",
+      "\r\n",
+      "        for node in list(postorder_iter_nodes(self.ensemble.graph.output_node)):\r\n",
+      "            if hasattr(node.op, \"load_artifacts\"):\r\n",
+      "                node.op.load_artifacts(str(ensemble_path))\r\n",
+      "\r\n",
+      "    @triton_multi_request\r\n",
+      "    @triton_error_handling\r\n",
+      "    def execute(self, request):\r\n",
+      "        \"\"\"Receives a list of pb_utils.InferenceRequest as the only argument. This\r\n",
+      "        function is called when an inference is requested for this model. Depending on the\r\n",
+      "        batching configuration (e.g. Dynamic Batching) used, `requests` may contain\r\n",
+      "        multiple requests. Every Python model, must create one pb_utils.InferenceResponse\r\n",
+      "        for every pb_utils.InferenceRequest in `requests`. If there is an error, you can\r\n",
+      "        set the error argument when creating a pb_utils.InferenceResponse.\r\n",
+      "\r\n",
+      "        Parameters\r\n",
+      "        ----------\r\n",
+      "        requests : list\r\n",
+      "          A list of pb_utils.InferenceRequest\r\n",
+      "\r\n",
+      "        Returns\r\n",
+      "        -------\r\n",
+      "        list\r\n",
+      "          A list of pb_utils.InferenceResponse. The length of this list must\r\n",
+      "          be the same as `requests`\r\n",
+      "        \"\"\"\r\n",
+      "        inputs = triton_request_to_dict_array(request, self.ensemble.input_schema.column_names)\r\n",
+      "        outputs = self.ensemble.transform(inputs, runtime=TritonExecutorRuntime())\r\n",
+      "        return dict_array_to_triton_response(outputs)\r\n",
+      "\r\n",
+      "\r\n",
+      "def _parse_model_repository(model_repository: str) -> str:\r\n",
+      "    \"\"\"\r\n",
+      "    Extract the model repository path from the model_repository value\r\n",
+      "    passed to the TritonPythonModel initialize method.\r\n",
+      "    \"\"\"\r\n",
+      "    # Handle bug in Tritonserver 22.06\r\n",
+      "    # model_repository argument became path to model.py\r\n",
+      "    # instead of path to model directory within the model repository\r\n",
+      "    if model_repository.endswith(\".py\"):\r\n",
+      "        return str(pathlib.Path(model_repository).parent.parent.parent)\r\n",
+      "    else:\r\n",
+      "        return str(pathlib.Path(model_repository).parent)\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "cat /workspace/models_for_benchmarking/executor_model/1/model.py"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "id": "3d21ce62",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{\"versions\": {\"python\": \"3.8.10 (default, Nov 14 2022, 12:59:47) \\n[GCC 9.4.0]\"}, \"generated_timestamp\": 1679017581}"
+     ]
+    }
+   ],
+   "source": [
+    "cat /workspace/models_for_benchmarking/executor_model/1/ensemble/metadata.json"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "7998b835",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%writefile /workspace/models_for_benchmarking/t4r_pytorch_pt/config.pbtxt\n",
+    "\n",
+    "# name: \"t4r_pytorch_pt\"\n",
+    "# input {\n",
+    "#   name: \"sess_pid_seq__values\"\n",
+    "#   data_type: TYPE_INT64\n",
+    "#   dims: -1\n",
+    "#   dims: 1\n",
+    "# }\n",
+    "# input {\n",
+    "#   name: \"sess_pid_seq__nnzs\"\n",
+    "#   data_type: TYPE_INT64\n",
+    "#   dims: -1\n",
+    "#   dims: 1\n",
+    "# }\n",
+    "# output {\n",
+    "#   name: \"output\"\n",
+    "#   data_type: TYPE_FP32\n",
+    "#   dims: -1\n",
+    "#   dims: 20\n",
+    "# }\n",
+    "# backend: \"python\""
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

From 552cf323876a597a7167356b12baf471b809c4ae Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Tue, 9 May 2023 12:07:46 +1000
Subject: [PATCH 12/15] update

---
 ...nd_save_model_for_benchmarking-Copy1.ipynb | 13764 +++++++++++++++-
 1 file changed, 13438 insertions(+), 326 deletions(-)

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
index 74b19fa9d3..c048898d04 100644
--- a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
@@ -2,27 +2,1528 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 2,
    "id": "d062ceda",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * [new branch]        asvdb_metric_tracking   -> origin/asvdb_metric_tracking\n",
+      " * [new branch]        benchmark-session-based -> origin/benchmark-session-based\n",
+      " * [new branch]        ci/horovod              -> origin/ci/horovod\n",
+      " * [new branch]        codespell_fix           -> origin/codespell_fix\n",
+      "   16fb4149..fcaefc3e  fea-sok-integration-wj  -> origin/fea-sok-integration-wj\n",
+      " * [new branch]        fea-sok-load-dump       -> origin/fea-sok-load-dump\n",
+      " * [new branch]        fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
+      "   95462360..7d68dc88  gh-pages                -> origin/gh-pages\n",
+      " * [new branch]        implement_review_comments -> origin/implement_review_comments\n",
+      " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      " * [new branch]        laiacano/concurrency    -> origin/laiacano/concurrency\n",
+      "   835ad186..d8133b8f  main                    -> origin/main\n",
+      " * [new branch]        mtl_example             -> origin/mtl_example\n",
+      "   cb431a8a..b90e9a1b  release-22.12           -> origin/release-22.12\n",
+      " * [new branch]        release-23.02           -> origin/release-23.02\n",
+      " * [new branch]        release-23.04           -> origin/release-23.04\n",
+      " * [new branch]        stable                  -> origin/stable\n",
+      " * [new branch]        tf/batch_predict_fix    -> origin/tf/batch_predict_fix\n",
+      " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]        tf/dataloader_changes   -> origin/tf/dataloader_changes\n",
+      " * [new branch]        tf/dlrm_dropout_fix     -> origin/tf/dlrm_dropout_fix\n",
+      " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]        tf/fix_logq_correction  -> origin/tf/fix_logq_correction\n",
+      " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]        tf/loglossmetric_callbacks -> origin/tf/loglossmetric_callbacks\n",
+      " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " + 169f3df5...06eecddd tf/output-block         -> origin/tf/output-block  (forced update)\n",
+      " * [new branch]        tf/pretrained_emb       -> origin/tf/pretrained_emb\n",
+      " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]        tf/quick_start_ranking  -> origin/tf/quick_start_ranking\n",
+      " * [new branch]        tf/transformer-api      -> origin/tf/transformer-api\n",
+      " * [new branch]        torch/dev               -> origin/torch/dev\n",
+      " * [new branch]        torch/masking           -> origin/torch/masking\n",
+      " * [new branch]        torch/prototype         -> origin/torch/prototype\n",
+      " * [new branch]        torch/remove-t4r-code   -> origin/torch/remove-t4r-code\n",
+      " * [new branch]        tox_github_actions_fix  -> origin/tox_github_actions_fix\n",
+      " * [new branch]        transformer-api         -> origin/transformer-api\n",
+      " + 0a65d603...9f53e8ff update_07               -> origin/update_07  (forced update)\n",
+      " * [new tag]           v23.02.00               -> v23.02.00\n",
+      " * [new tag]           v23.04.00               -> v23.04.00\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
+      "HEAD is now at a86201ee add masking support to SequencePredictRandom transform\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.0.4)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.10.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.0.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.19.6)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.12.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
+      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (22.0)\n",
+      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
+      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.5)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (45.2.0)\n",
+      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
+      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
+      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.1.3)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
+      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
+      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
+      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
+      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
+      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.1.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.11.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.1.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.14.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=e83a617585afdc41213cc3cf69dd7c136b778260ce9dc14c37e87c4a5675372a\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-uc9xl_m5/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 0.11.0\n",
+      "    Uninstalling merlin-models-0.11.0:\n",
+      "      Successfully uninstalled merlin-models-0.11.0\n",
+      "Successfully installed merlin-models-23.2.0+7.ga86201ee\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was a86201ee add masking support to SequencePredictRandom transform\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is behind 'origin/main' by 75 commits, and can be fast-forwarded.\n",
+      "  (use \"git pull\" to update your local branch)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * branch              main       -> FETCH_HEAD\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating 835ad186..d8133b8f\n",
+      "Fast-forward\n",
+      " .github/workflows/blossom-ci.yml                   |  102 --\n",
+      " .github/workflows/check-base-branch.yaml           |    9 +\n",
+      " .github/workflows/cpu-horovod.yml                  |   53 +\n",
+      " .github/workflows/cpu-nvtabular.yml                |   10 +-\n",
+      " .github/workflows/cpu-systems.yml                  |   10 +-\n",
+      " .github/workflows/cpu-t4r.yml                      |   41 +\n",
+      " .github/workflows/datasets.yml                     |    8 +-\n",
+      " .github/workflows/docs-build.yaml                  |    2 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |    7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |   12 +-\n",
+      " .github/workflows/implicit.yml                     |    8 +-\n",
+      " .github/workflows/lightfm.yml                      |   14 +-\n",
+      " .github/workflows/multi-gpu-ci.yml                 |   34 +\n",
+      " .github/workflows/packages.yaml                    |  120 ++\n",
+      " .github/workflows/pre-commit.yml                   |    8 +\n",
+      " .github/workflows/pytorch.yml                      |   85 +-\n",
+      " .github/workflows/release-drafter.yaml             |    2 +-\n",
+      " .github/workflows/set-stable-branch.yaml           |   10 +\n",
+      " .github/workflows/tensorflow.yml                   |   49 +-\n",
+      " .github/workflows/xgboost.yml                      |    8 +-\n",
+      " .pre-commit-config.yaml                            |   10 +-\n",
+      " MANIFEST.in                                        |    5 +-\n",
+      " README.md                                          |    2 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |    2 +-\n",
+      " conda/recipes/meta.yaml                            |   17 +-\n",
+      " docs/README.md                                     |   46 +-\n",
+      " docs/source/api.rst                                |   99 +-\n",
+      " examples/01-Getting-started.ipynb                  |  101 +-\n",
+      " ...2-Merlin-Models-and-NVTabular-integration.ipynb |   13 +-\n",
+      " examples/03-Exploring-different-models.ipynb       |   25 +-\n",
+      " examples/04-Exporting-ranking-models.ipynb         |    9 +-\n",
+      " examples/05-Retrieval-Model.ipynb                  |   30 +-\n",
+      " ...-your-own-architecture-with-Merlin-Models.ipynb |  546 +++----\n",
+      " ...nal-ML-models-using-the-Merlin-Models-API.ipynb |  701 +++++++-\n",
+      " examples/images/mtl_architectures.png              |  Bin 0 -> 72404 bytes\n",
+      " ...ing-of-large-embedding-tables-by-LazyAdam.ipynb |   12 +-\n",
+      " ...on-based-next-item-prediction-for-fashion.ipynb |   11 +-\n",
+      " .../entertainment-with-pretrained-embeddings.ipynb |    8 +-\n",
+      " .../incremental-training-with-layer-freezing.ipynb |  275 ++--\n",
+      " .../multi-gpu-data-parallel-training.ipynb         |    7 +-\n",
+      " .../multi-gpu/install_sparse_operation_kit.sh      |   16 +\n",
+      " .../usecases/ranking_with_multitask_learning.ipynb | 1718 ++++++++++++++++++++\n",
+      " ...etrieval-with-hyperparameter-optimization.ipynb |    5 +-\n",
+      " .../transformers-next-item-prediction.ipynb        | 1085 ++++++++----\n",
+      " .../ecommerce/booking/transformed/schema.pbtxt     |   15 +-\n",
+      " merlin/datasets/ecommerce/small/schema.json        |    7 +-\n",
+      " .../entertainment/movielens/100k/schema.pbtxt      |    1 +\n",
+      " .../entertainment/movielens/1m/schema.pbtxt        |    3 +-\n",
+      " .../entertainment/movielens/25m/schema.pbtxt       |    1 +\n",
+      " .../entertainment/music_streaming/schema.json      |   10 +-\n",
+      " .../entertainment/tenrec_video}/__init__.py        |    0\n",
+      " .../entertainment/tenrec_video/schema.pbtxt        |  159 ++\n",
+      " merlin/datasets/synthetic.py                       |  104 +-\n",
+      " .../datasets/testing/sequence_testing/schema.json  |   24 +-\n",
+      " merlin/models/implicit/__init__.py                 |  115 +-\n",
+      " merlin/models/io.py                                |    2 -\n",
+      " merlin/models/lightfm/__init__.py                  |  132 +-\n",
+      " merlin/models/tf/__init__.py                       |   12 +-\n",
+      " merlin/models/tf/blocks/dlrm.py                    |   21 +-\n",
+      " merlin/models/tf/blocks/experts.py                 |   33 +-\n",
+      " merlin/models/tf/blocks/optimizer.py               |   74 +-\n",
+      " merlin/models/tf/blocks/retrieval/base.py          |    1 -\n",
+      " merlin/models/tf/core/aggregation.py               |   87 +-\n",
+      " merlin/models/tf/core/combinators.py               |    6 +-\n",
+      " merlin/models/tf/core/encoder.py                   |   54 +-\n",
+      " merlin/models/tf/core/tabular.py                   |    3 +-\n",
+      " merlin/models/tf/distributed/backend.py            |   20 +\n",
+      " merlin/models/tf/distributed/embedding.py          |  232 +++\n",
+      " merlin/models/tf/experimental/sample_weight.py     |  177 ++\n",
+      " merlin/models/tf/inputs/base.py                    |   26 +-\n",
+      " merlin/models/tf/inputs/continuous.py              |   41 +-\n",
+      " merlin/models/tf/inputs/embedding.py               |  138 +-\n",
+      " merlin/models/tf/loader.py                         |   36 +-\n",
+      " merlin/models/tf/metrics/__init__.py               |   31 +-\n",
+      " merlin/models/tf/metrics/evaluation.py             |    4 +-\n",
+      " merlin/models/tf/metrics/topk.py                   |   17 +-\n",
+      " merlin/models/tf/models/base.py                    |  887 +++++++---\n",
+      " merlin/models/tf/models/benchmark.py               |   20 +-\n",
+      " merlin/models/tf/models/ranking.py                 |   93 +-\n",
+      " merlin/models/tf/models/retrieval.py               |    5 +\n",
+      " merlin/models/tf/models/utils.py                   |   38 +\n",
+      " merlin/models/tf/outputs/base.py                   |   27 +-\n",
+      " merlin/models/tf/outputs/block.py                  |  300 ++++\n",
+      " merlin/models/tf/outputs/classification.py         |   14 +-\n",
+      " merlin/models/tf/outputs/contrastive.py            |   65 +-\n",
+      " merlin/models/tf/outputs/regression.py             |    8 +-\n",
+      " merlin/models/tf/outputs/sampling/base.py          |   34 +-\n",
+      " merlin/models/tf/outputs/sampling/popularity.py    |   93 +-\n",
+      " merlin/models/tf/outputs/topk.py                   |    2 -\n",
+      " merlin/models/tf/prediction_tasks/base.py          |   15 +\n",
+      " .../models/tf/prediction_tasks/classification.py   |   11 +-\n",
+      " merlin/models/tf/prediction_tasks/regression.py    |    3 +-\n",
+      " merlin/models/tf/transformers/block.py             |   61 +-\n",
+      " merlin/models/tf/transformers/transforms.py        |   52 +-\n",
+      " merlin/models/tf/transforms/bias.py                |   18 +-\n",
+      " merlin/models/tf/transforms/features.py            |  579 +++++--\n",
+      " merlin/models/tf/transforms/negative_sampling.py   |   25 +-\n",
+      " merlin/models/tf/transforms/sequence.py            |  523 ++++--\n",
+      " merlin/models/tf/transforms/tensor.py              |  249 +--\n",
+      " merlin/models/tf/utils/batch_utils.py              |    8 +-\n",
+      " merlin/models/tf/utils/testing_utils.py            |   81 +-\n",
+      " merlin/models/tf/utils/tf_utils.py                 |   85 +-\n",
+      " merlin/models/torch/__init__.py                    |   97 --\n",
+      " merlin/models/torch/block/base.py                  |  321 ----\n",
+      " merlin/models/torch/block/mlp.py                   |   95 --\n",
+      " merlin/models/torch/features/base.py               |   23 -\n",
+      " merlin/models/torch/features/continuous.py         |   66 -\n",
+      " merlin/models/torch/features/embedding.py          |  497 ------\n",
+      " merlin/models/torch/features/tabular.py            |  217 ---\n",
+      " merlin/models/torch/losses.py                      |   75 -\n",
+      " merlin/models/torch/model/__init__.py              |   15 -\n",
+      " merlin/models/torch/model/base.py                  |  660 --------\n",
+      " merlin/models/torch/model/prediction_task.py       |  101 --\n",
+      " merlin/models/torch/tabular/__init__.py            |   15 -\n",
+      " merlin/models/torch/tabular/aggregation.py         |  149 --\n",
+      " merlin/models/torch/tabular/base.py                |  640 --------\n",
+      " merlin/models/torch/tabular/transformations.py     |  124 --\n",
+      " merlin/models/torch/typing.py                      |   30 -\n",
+      " merlin/models/torch/utils/__init__.py              |   15 -\n",
+      " merlin/models/torch/utils/data_utils.py            |  376 -----\n",
+      " merlin/models/torch/utils/examples_utils.py        |  107 --\n",
+      " merlin/models/torch/utils/torch_utils.py           |  210 ---\n",
+      " merlin/models/utils/dataset.py                     |   59 +-\n",
+      " merlin/models/utils/misc_utils.py                  |    7 +-\n",
+      " merlin/models/utils/nvt_utils.py                   |    6 +-\n",
+      " merlin/models/utils/schema_utils.py                |   24 +-\n",
+      " merlin/models/xgb/__init__.py                      |    1 -\n",
+      " pytest.ini                                         |   15 +\n",
+      " requirements/base.txt                              |    4 +-\n",
+      " requirements/docs.txt                              |    3 +-\n",
+      " requirements/horovod-cpu-environment.yml           |   18 +\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " requirements/horovod.txt                           |    1 +\n",
+      " requirements/tensorflow.txt                        |    2 +-\n",
+      " requirements/test.txt                              |    2 +-\n",
+      " requirements/transformers.txt                      |    2 +-\n",
+      " tests/common/tf/retrieval/retrieval_utils.py       |    4 +-\n",
+      " tests/integration/tf/test_ci_01_getting_started.py |   20 +-\n",
+      " .../tf/test_ci_03_exploring_different_models.py    |    8 +-\n",
+      " .../tf/test_ci_06_advanced_own_architecture.py     |    8 +-\n",
+      " tests/unit/datasets/test_ecommerce.py              |   27 +-\n",
+      " tests/unit/datasets/test_synthetic.py              |   15 +-\n",
+      " tests/unit/implicit/test_implicit.py               |   60 +-\n",
+      " tests/unit/lightfm/test_lightfm.py                 |   68 +\n",
+      " .../blocks/retrieval/test_matrix_factorization.py  |    7 +-\n",
+      " tests/unit/tf/blocks/retrieval/test_two_tower.py   |    9 +-\n",
+      " tests/unit/tf/blocks/test_cross.py                 |    2 -\n",
+      " tests/unit/tf/blocks/test_interactions.py          |    6 +-\n",
+      " tests/unit/tf/blocks/test_mlp.py                   |   39 +\n",
+      " tests/unit/tf/blocks/test_optimizer.py             |   64 +-\n",
+      " tests/unit/tf/core/test_base.py                    |    5 +-\n",
+      " tests/unit/tf/core/test_combinators.py             |    1 +\n",
+      " tests/unit/tf/core/test_encoder.py                 |    6 +-\n",
+      " tests/unit/tf/core/test_prediction.py              |    2 +-\n",
+      " tests/unit/tf/examples/test_01_getting_started.py  |    8 +-\n",
+      " .../examples/test_03_exploring_different_models.py |    8 +-\n",
+      " ...test_usecase_accelerate_training_by_lazyadam.py |    1 +\n",
+      " ..._usecase_incremental_training_layer_freezing.py |    2 +-\n",
+      " ...test_usecase_ranking_with_multitask_learning.py |   46 +\n",
+      " ...st_usecase_transformers_next_item_prediction.py |   36 +-\n",
+      " .../unit/tf/experimental}/__init__.py              |    0\n",
+      " tests/unit/tf/experimental/test_sample_weight.py   |  112 ++\n",
+      " tests/unit/tf/horovod/__init__.py                  |    2 +-\n",
+      " tests/unit/tf/horovod/test_embedding.py            |   46 +\n",
+      " tests/unit/tf/horovod/test_horovod.py              |   10 +-\n",
+      " tests/unit/tf/inputs/test_base.py                  |    2 +-\n",
+      " tests/unit/tf/inputs/test_block.py                 |  202 +++\n",
+      " tests/unit/tf/inputs/test_continuous.py            |    4 +-\n",
+      " tests/unit/tf/inputs/test_embedding.py             |   41 +-\n",
+      " tests/unit/tf/inputs/test_tabular.py               |   10 +-\n",
+      " tests/unit/tf/metrics/test_metrics_topk.py         |    2 -\n",
+      " tests/unit/tf/models/test_base.py                  |   93 +-\n",
+      " tests/unit/tf/models/test_benchmark.py             |   13 +-\n",
+      " tests/unit/tf/models/test_ranking.py               |  103 +-\n",
+      " tests/unit/tf/models/test_retrieval.py             |   35 +-\n",
+      " tests/unit/tf/outputs/test_base.py                 |   78 +-\n",
+      " tests/unit/tf/outputs/test_block.py                |  936 +++++++++++\n",
+      " tests/unit/tf/outputs/test_classification.py       |   69 +-\n",
+      " tests/unit/tf/outputs/test_contrastive.py          |   28 +-\n",
+      " tests/unit/tf/outputs/test_sampling.py             |   17 +-\n",
+      " tests/unit/tf/prediction_tasks/test_multi_task.py  |  281 +++-\n",
+      " tests/unit/tf/test_loader.py                       |   28 +-\n",
+      " tests/unit/tf/transformers/test_block.py           |  187 ++-\n",
+      " tests/unit/tf/transforms/test_features.py          |  123 +-\n",
+      " tests/unit/tf/transforms/test_negative_sampling.py |   63 +-\n",
+      " tests/unit/tf/transforms/test_noise.py             |    1 -\n",
+      " tests/unit/tf/transforms/test_sequence.py          |   55 +-\n",
+      " tests/unit/tf/transforms/test_tensor.py            |   20 +-\n",
+      " tests/unit/tf/utils/test_batch.py                  |   20 +-\n",
+      " tests/unit/torch/__init__.py                       |   18 -\n",
+      " tests/unit/torch/_conftest.py                      |  151 --\n",
+      " tests/unit/torch/block/__init__.py                 |   15 -\n",
+      " tests/unit/torch/block/test_base.py                |   62 -\n",
+      " tests/unit/torch/block/test_mlp.py                 |   30 -\n",
+      " tests/unit/torch/features/__init__.py              |   15 -\n",
+      " tests/unit/torch/features/test_continuous.py       |   34 -\n",
+      " tests/unit/torch/features/test_embedding.py        |  250 ---\n",
+      " tests/unit/torch/features/test_tabular.py          |   84 -\n",
+      " tests/unit/torch/model/__init__.py                 |   15 -\n",
+      " tests/unit/torch/model/test_head.py                |   92 --\n",
+      " tests/unit/torch/model/test_model.py               |  122 --\n",
+      " tests/unit/torch/tabular/__init__.py               |   15 -\n",
+      " tests/unit/torch/tabular/test_aggregation.py       |  106 --\n",
+      " tests/unit/torch/tabular/test_tabular.py           |   88 -\n",
+      " tests/unit/torch/tabular/test_transformations.py   |  122 --\n",
+      " tests/unit/torch/test_dataloader_utils.py          |   86 -\n",
+      " tests/unit/torch/test_losses.py                    |   53 -\n",
+      " tests/unit/torch/test_public_api.py                |   27 -\n",
+      " tests/unit/torch/utils/__init__.py                 |   15 -\n",
+      " tests/unit/xgb/test_xgboost.py                     |    2 +-\n",
+      " tox.ini                                            |   78 +-\n",
+      " 210 files changed, 10688 insertions(+), 8019 deletions(-)\n",
+      " delete mode 100644 .github/workflows/blossom-ci.yml\n",
+      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
+      " create mode 100644 .github/workflows/cpu-horovod.yml\n",
+      " create mode 100644 .github/workflows/cpu-t4r.yml\n",
+      " create mode 100644 .github/workflows/multi-gpu-ci.yml\n",
+      " create mode 100644 .github/workflows/packages.yaml\n",
+      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
+      " create mode 100644 examples/images/mtl_architectures.png\n",
+      " create mode 100644 examples/usecases/multi-gpu/install_sparse_operation_kit.sh\n",
+      " create mode 100644 examples/usecases/ranking_with_multitask_learning.ipynb\n",
+      " rename merlin/{models/torch/block => datasets/entertainment/tenrec_video}/__init__.py (100%)\n",
+      " create mode 100644 merlin/datasets/entertainment/tenrec_video/schema.pbtxt\n",
+      " create mode 100644 merlin/models/tf/distributed/embedding.py\n",
+      " create mode 100644 merlin/models/tf/experimental/sample_weight.py\n",
+      " create mode 100644 merlin/models/tf/outputs/block.py\n",
+      " delete mode 100644 merlin/models/torch/__init__.py\n",
+      " delete mode 100644 merlin/models/torch/block/base.py\n",
+      " delete mode 100644 merlin/models/torch/block/mlp.py\n",
+      " delete mode 100644 merlin/models/torch/features/base.py\n",
+      " delete mode 100644 merlin/models/torch/features/continuous.py\n",
+      " delete mode 100644 merlin/models/torch/features/embedding.py\n",
+      " delete mode 100644 merlin/models/torch/features/tabular.py\n",
+      " delete mode 100644 merlin/models/torch/losses.py\n",
+      " delete mode 100644 merlin/models/torch/model/__init__.py\n",
+      " delete mode 100644 merlin/models/torch/model/base.py\n",
+      " delete mode 100644 merlin/models/torch/model/prediction_task.py\n",
+      " delete mode 100644 merlin/models/torch/tabular/__init__.py\n",
+      " delete mode 100644 merlin/models/torch/tabular/aggregation.py\n",
+      " delete mode 100644 merlin/models/torch/tabular/base.py\n",
+      " delete mode 100644 merlin/models/torch/tabular/transformations.py\n",
+      " delete mode 100644 merlin/models/torch/typing.py\n",
+      " delete mode 100644 merlin/models/torch/utils/__init__.py\n",
+      " delete mode 100644 merlin/models/torch/utils/data_utils.py\n",
+      " delete mode 100644 merlin/models/torch/utils/examples_utils.py\n",
+      " delete mode 100644 merlin/models/torch/utils/torch_utils.py\n",
+      " create mode 100644 pytest.ini\n",
+      " create mode 100644 requirements/horovod-cpu-environment.yml\n",
+      " create mode 100644 tests/unit/tf/examples/test_usecase_ranking_with_multitask_learning.py\n",
+      " rename {merlin/models/torch/features => tests/unit/tf/experimental}/__init__.py (100%)\n",
+      " create mode 100644 tests/unit/tf/experimental/test_sample_weight.py\n",
+      " create mode 100644 tests/unit/tf/horovod/test_embedding.py\n",
+      " create mode 100644 tests/unit/tf/inputs/test_block.py\n",
+      " create mode 100644 tests/unit/tf/outputs/test_block.py\n",
+      " delete mode 100644 tests/unit/torch/__init__.py\n",
+      " delete mode 100644 tests/unit/torch/_conftest.py\n",
+      " delete mode 100644 tests/unit/torch/block/__init__.py\n",
+      " delete mode 100644 tests/unit/torch/block/test_base.py\n",
+      " delete mode 100644 tests/unit/torch/block/test_mlp.py\n",
+      " delete mode 100644 tests/unit/torch/features/__init__.py\n",
+      " delete mode 100644 tests/unit/torch/features/test_continuous.py\n",
+      " delete mode 100644 tests/unit/torch/features/test_embedding.py\n",
+      " delete mode 100644 tests/unit/torch/features/test_tabular.py\n",
+      " delete mode 100644 tests/unit/torch/model/__init__.py\n",
+      " delete mode 100644 tests/unit/torch/model/test_head.py\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " delete mode 100644 tests/unit/torch/model/test_model.py\n",
+      " delete mode 100644 tests/unit/torch/tabular/__init__.py\n",
+      " delete mode 100644 tests/unit/torch/tabular/test_aggregation.py\n",
+      " delete mode 100644 tests/unit/torch/tabular/test_tabular.py\n",
+      " delete mode 100644 tests/unit/torch/tabular/test_transformations.py\n",
+      " delete mode 100644 tests/unit/torch/test_dataloader_utils.py\n",
+      " delete mode 100644 tests/unit/torch/test_losses.py\n",
+      " delete mode 100644 tests/unit/torch/test_public_api.py\n",
+      " delete mode 100644 tests/unit/torch/utils/__init__.py\n",
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Collecting merlin-core>=23.4.0\n",
+      "  Downloading merlin-core-23.4.0.tar.gz (133 kB)\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Collecting merlin-dataloader>=23.4.0\n",
+      "  Downloading merlin-dataloader-23.4.0.tar.gz (46 kB)\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (8.0.0)\n",
+      "Collecting dask-cuda>=22.12.0\n",
+      "  Downloading dask_cuda-23.4.0-py3-none-any.whl (125 kB)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.56.4)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.12.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (11.4.1)\n",
+      "Collecting fsspec>=2022.7.1\n",
+      "  Downloading fsspec-2023.5.0-py3-none-any.whl (160 kB)\n",
+      "Collecting dask>=2022.11.1\n",
+      "  Downloading dask-2023.4.1-py3-none-any.whl (1.2 MB)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.22.4)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (22.0)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.19.6)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.5)\n",
+      "Collecting distributed>=2022.11.1\n",
+      "  Downloading distributed-2023.4.1-py3-none-any.whl (962 kB)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.2.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.64.1)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.39.1)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.12.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (8.1.3)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.2.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.0)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.8.2)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.1.2)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.7.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (5.9.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.4.0)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.26.13)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.1)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.4)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.2.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.11.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.14.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.1.1)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0.4)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-models, merlin-core, merlin-dataloader\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.5.dev0+12.gd8133b8f-py3-none-any.whl size=343289 sha256=1f20f65acef288535cc4e5bca6de216485c546156d707b17b3bb9b8ceedc3ec7\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-0prgr6hn/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-23.4.0-py3-none-any.whl size=159556 sha256=9a716886c9862c32bd19979d286f32eb664022c85bcee19ca2d762fa014c8e85\n",
+      "  Stored in directory: /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.4.0-py3-none-any.whl size=34732 sha256=a7853a487205c4a6fdf99d03bda0cacba559264387e507e2f8d6cd87dc471c80\n",
+      "  Stored in directory: /root/.cache/pip/wheels/90/b0/66/48e52cc29f544ffbd105154b8be0901b5bb80cc85842b778fc\n",
+      "Successfully built merlin-models merlin-core merlin-dataloader\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement dask==2022.7.1, but you'll have dask 2023.4.1 which is incompatible.\n",
+      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement distributed==2022.7.1, but you'll have distributed 2023.4.1 which is incompatible.\n",
+      "ERROR: dask-cuda 23.4.0 has requirement dask==2023.3.2, but you'll have dask 2023.4.1 which is incompatible.\n",
+      "ERROR: dask-cuda 23.4.0 has requirement distributed==2023.3.2.1, but you'll have distributed 2023.4.1 which is incompatible.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement cuda-python<11.7.1,>=11.5, but you'll have cuda-python 11.8.1 which is incompatible.\n",
+      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement protobuf<3.21.0a0,>=3.20.1, but you'll have protobuf 3.19.6 which is incompatible.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Installing collected packages: fsspec, dask, distributed, dask-cuda, merlin-core, merlin-dataloader, merlin-models\n",
+      "  Attempting uninstall: fsspec\n",
+      "    Found existing installation: fsspec 2022.5.0\n",
+      "    Uninstalling fsspec-2022.5.0:\n",
+      "      Successfully uninstalled fsspec-2022.5.0\n",
+      "  Attempting uninstall: dask\n",
+      "    Found existing installation: dask 2022.7.1\n",
+      "    Uninstalling dask-2022.7.1:\n",
+      "      Successfully uninstalled dask-2022.7.1\n",
+      "  Attempting uninstall: distributed\n",
+      "    Found existing installation: distributed 2022.7.1\n",
+      "    Uninstalling distributed-2022.7.1:\n",
+      "      Successfully uninstalled distributed-2022.7.1\n",
+      "  Attempting uninstall: dask-cuda\n",
+      "    Found existing installation: dask-cuda 22.8.0a0+36.g9860cad\n",
+      "    Uninstalling dask-cuda-22.8.0a0+36.g9860cad:\n",
+      "      Successfully uninstalled dask-cuda-22.8.0a0+36.g9860cad\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 0.10.0\n",
+      "    Uninstalling merlin-core-0.10.0:\n",
+      "      Successfully uninstalled merlin-core-0.10.0\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 0.0.4\n",
+      "    Uninstalling merlin-dataloader-0.0.4:\n",
+      "      Successfully uninstalled merlin-dataloader-0.0.4\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 23.2.0+7.ga86201ee\n",
+      "    Uninstalling merlin-models-23.2.0+7.ga86201ee:\n",
+      "      Successfully uninstalled merlin-models-23.2.0+7.ga86201ee\n",
+      "Successfully installed dask-2023.4.1 dask-cuda-23.4.0 distributed-2023.4.1 fsspec-2023.5.0 merlin-core-23.4.0 merlin-dataloader-23.4.0 merlin-models-23.5.dev0+12.gd8133b8f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was 2fc6889 add schema parameter to the `repartition` method (#192)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   cd96ca5f..a0bcd30f main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating cd96ca5f..a0bcd30f\n",
+      "Fast-forward\n",
+      " .github/actionlint.yaml                            |   5 +\n",
+      " .github/release-drafter.yml                        |  44 +--\n",
+      " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
+      " .../ISSUE_TEMPLATE/documentation-request.md        |  12 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
+      " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
+      " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
+      " .github/workflows/check-base-branch.yaml           |   9 +\n",
+      " .github/workflows/cpu-ci.yml                       | 138 +-------\n",
+      " .github/workflows/cpu-models.yml                   |  44 ---\n",
+      " .github/workflows/cpu-nvtabular.yml                |  44 ---\n",
+      " .github/workflows/cpu-systems.yml                  |  44 ---\n",
+      " .github/workflows/docs-preview-pr.yaml             |   4 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |  51 +--\n",
+      " .github/workflows/gpu-ci.yml                       |  52 ++-\n",
+      " .github/workflows/lint.yaml                        |  11 +-\n",
+      " .github/workflows/merlin.yml                       |  35 ++\n",
+      " .github/workflows/packages.yaml                    | 154 ++++++++\n",
+      " .github/workflows/release-drafter.yaml             |   4 +-\n",
+      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
+      " .github/workflows/tox.yml                          |  38 ++\n",
+      " .pre-commit-config.yaml                            |  55 +--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |  28 +-\n",
+      " README.md                                          |  68 ++--\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " conda/recipe/meta.yaml                             |   4 +-\n",
+      " docs/README.md                                     |  49 ++-\n",
+      " merlin/core/compat/__init__.py                     | 143 ++++++++\n",
+      " merlin/core/compat/tensorflow.py                   |  92 +++++\n",
+      " merlin/core/compat/torch.py                        |  22 ++\n",
+      " merlin/core/dispatch.py                            | 245 ++++++++-----\n",
+      " merlin/core/has_gpu.py                             |  46 +++\n",
+      " merlin/core/utils.py                               |  88 +----\n",
+      " merlin/dag/__init__.py                             |   1 +\n",
+      " merlin/dag/base_operator.py                        |  30 +-\n",
+      " merlin/dag/dictarray.py                            |   3 +-\n",
+      " merlin/dag/executors.py                            | 242 +++++++------\n",
+      " merlin/dag/graph.py                                |  20 ++\n",
+      " merlin/dag/node.py                                 |   5 +-\n",
+      " merlin/dag/selector.py                             |  10 +-\n",
+      " merlin/dag/utils.py                                |  69 ++++\n",
+      " merlin/dispatch/lazy.py                            | 156 +++++++++\n",
+      " merlin/dtypes/__init__.py                          |  61 ++++\n",
+      " merlin/dtypes/aliases.py                           |  53 +++\n",
+      " merlin/dtypes/base.py                              | 179 ++++++++++\n",
+      " merlin/dtypes/mapping.py                           | 177 ++++++++++\n",
+      " .../compat.py => dtypes/mappings/__init__.py}      |  17 +-\n",
+      " merlin/dtypes/mappings/cudf.py                     |  61 ++++\n",
+      " merlin/dtypes/mappings/merlin.py                   |  51 +++\n",
+      " merlin/dtypes/mappings/numpy.py                    |  52 +++\n",
+      " merlin/dtypes/mappings/pandas.py                   |  38 ++\n",
+      " merlin/dtypes/mappings/python.py                   |  28 ++\n",
+      " merlin/dtypes/mappings/tf.py                       |  52 +++\n",
+      " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
+      " merlin/dtypes/mappings/triton.py                   |  53 +++\n",
+      " merlin/dtypes/registry.py                          | 136 ++++++++\n",
+      " merlin/dtypes/shape.py                             | 200 +++++++++++\n",
+      " merlin/io/__init__.py                              |   2 +-\n",
+      " merlin/io/avro.py                                  |   6 +-\n",
+      " merlin/io/csv.py                                   |   9 +-\n",
+      " merlin/io/dask.py                                  |  74 +++-\n",
+      " merlin/io/dataframe_engine.py                      |   6 +-\n",
+      " merlin/io/dataset.py                               | 112 ++++--\n",
+      " merlin/io/fsspec_utils.py                          |  16 +-\n",
+      " merlin/io/parquet.py                               |  25 +-\n",
+      " merlin/io/shuffle.py                               |  13 +-\n",
+      " merlin/io/worker.py                                | 104 +++---\n",
+      " merlin/io/writer.py                                |   7 +-\n",
+      " merlin/io/writer_factory.py                        |  10 +-\n",
+      " merlin/schema/io/tensorflow_metadata.py            | 115 ++++--\n",
+      " merlin/schema/schema.py                            | 331 +++++++++++-------\n",
+      " merlin/schema/tags.py                              |   7 +-\n",
+      " merlin/table/__init__.py                           |  24 ++\n",
+      " merlin/table/conversions.py                        | 226 ++++++++++++\n",
+      " merlin/table/cupy_column.py                        | 108 ++++++\n",
+      " merlin/table/numpy_column.py                       | 122 +++++++\n",
+      " merlin/table/tensor_column.py                      | 261 ++++++++++++++\n",
+      " merlin/table/tensor_table.py                       | 294 ++++++++++++++++\n",
+      " merlin/table/tensorflow_column.py                  | 173 +++++++++\n",
+      " merlin/table/torch_column.py                       | 135 +++++++\n",
+      " requirements-gpu.txt                               |   2 +-\n",
+      " requirements.txt                                   |  13 +-\n",
+      " tests/conftest.py                                  |  35 +-\n",
+      " tests/unit/core/test_dispatch.py                   |  43 ++-\n",
+      " tests/unit/core/test_protocols.py                  |  10 +-\n",
+      " tests/unit/core/test_version.py                    |   2 +\n",
+      " tests/unit/dag/test_column_selector.py             |   6 +\n",
+      " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
+      " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
+      " tests/unit/dtypes/test_cudf.py                     |  30 ++\n",
+      " tests/unit/dtypes/test_module.py                   |  61 ++++\n",
+      " tests/unit/dtypes/test_shape.py                    | 222 ++++++++++++\n",
+      " tests/unit/io/test_avro.py                         |   8 +-\n",
+      " tests/unit/io/test_dataset.py                      |  51 +++\n",
+      " tests/unit/io/test_io.py                           |  95 ++++-\n",
+      " tests/unit/io/test_worker.py                       | 142 ++++++++\n",
+      " tests/unit/schema/test_column_schemas.py           | 142 +++++---\n",
+      " tests/unit/schema/test_schema.py                   |  60 +++-\n",
+      " tests/unit/schema/test_schema_io.py                |  54 ++-\n",
+      " tests/unit/table/test_convert_column.py            | 164 +++++++++\n",
+      " tests/unit/table/test_tensor_column.py             | 262 ++++++++++++++\n",
+      " tests/unit/table/test_tensor_table.py              | 387 +++++++++++++++++++++\n",
+      " tests/unit/utils/test_utils.py                     |  16 +-\n",
+      " tox.ini                                            |  49 ++-\n",
+      " 106 files changed, 6299 insertions(+), 1146 deletions(-)\n",
+      " create mode 100644 .github/actionlint.yaml\n",
+      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
+      " delete mode 100644 .github/workflows/cpu-models.yml\n",
+      " delete mode 100644 .github/workflows/cpu-nvtabular.yml\n",
+      " delete mode 100644 .github/workflows/cpu-systems.yml\n",
+      " create mode 100644 .github/workflows/merlin.yml\n",
+      " create mode 100644 .github/workflows/packages.yaml\n",
+      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
+      " create mode 100644 .github/workflows/tox.yml\n",
+      " create mode 100644 .prettierignore\n",
+      " create mode 100644 merlin/core/compat/__init__.py\n",
+      " create mode 100644 merlin/core/compat/tensorflow.py\n",
+      " create mode 100644 merlin/core/compat/torch.py\n",
+      " create mode 100644 merlin/core/has_gpu.py\n",
+      " create mode 100644 merlin/dag/utils.py\n",
+      " create mode 100644 merlin/dispatch/lazy.py\n",
+      " create mode 100644 merlin/dtypes/__init__.py\n",
+      " create mode 100644 merlin/dtypes/aliases.py\n",
+      " create mode 100644 merlin/dtypes/base.py\n",
+      " create mode 100644 merlin/dtypes/mapping.py\n",
+      " rename merlin/{core/compat.py => dtypes/mappings/__init__.py} (60%)\n",
+      " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/merlin.py\n",
+      " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
+      " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
+      " create mode 100644 merlin/dtypes/mappings/python.py\n",
+      " create mode 100644 merlin/dtypes/mappings/tf.py\n",
+      " create mode 100644 merlin/dtypes/mappings/torch.py\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " create mode 100644 merlin/dtypes/mappings/triton.py\n",
+      " create mode 100644 merlin/dtypes/registry.py\n",
+      " create mode 100644 merlin/dtypes/shape.py\n",
+      " create mode 100644 merlin/table/__init__.py\n",
+      " create mode 100644 merlin/table/conversions.py\n",
+      " create mode 100644 merlin/table/cupy_column.py\n",
+      " create mode 100644 merlin/table/numpy_column.py\n",
+      " create mode 100644 merlin/table/tensor_column.py\n",
+      " create mode 100644 merlin/table/tensor_table.py\n",
+      " create mode 100644 merlin/table/tensorflow_column.py\n",
+      " create mode 100644 merlin/table/torch_column.py\n",
+      " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
+      " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
+      " create mode 100644 tests/unit/dtypes/test_cudf.py\n",
+      " create mode 100644 tests/unit/dtypes/test_module.py\n",
+      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
+      " create mode 100644 tests/unit/io/test_dataset.py\n",
+      " create mode 100644 tests/unit/io/test_worker.py\n",
+      " create mode 100644 tests/unit/table/test_convert_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_column.py\n",
+      " create mode 100644 tests/unit/table/test_tensor_table.py\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.2.5)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.3.5)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (0.56.4)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (23.4.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (11.4.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (22.0)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (3.19.6)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.22.4)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (8.0.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.12.0)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.5.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (0.4.3)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2.8.2)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (45.2.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (3.1.2)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (5.9.4)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.26.13)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.1)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.4.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.7.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.4)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (8.1.3)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (0.12.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.1.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.14.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.1.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.0.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.1)\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+125.ga0bcd30f-py3-none-any.whl size=161449 sha256=57d8552cb7abbed6b1d1b2860391c64e7dfea045c442fc0f94c0fc940aed7e3d\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-0yemn26u/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "ERROR: merlin-models 23.5.dev0+12.gd8133b8f has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n",
+      "ERROR: merlin-dataloader 23.4.0 has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Installing collected packages: merlin-core\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 23.4.0\n",
+      "    Uninstalling merlin-core-23.4.0:\n",
+      "      Successfully uninstalled merlin-core-23.4.0\n",
+      "Successfully installed merlin-core-0.9.0+125.ga0bcd30f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was 020b24b7 Fix output error occurring due to  check if it is a dict or not (#1742)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/NVTabular\n",
+      " * branch              main       -> FETCH_HEAD\n",
+      "   c5bc4098..67136eba  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating c5bc4098..67136eba\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug_report.md               |  11 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/feature_request.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/operator_request.md         |  14 +-\n",
+      " .github/ISSUE_TEMPLATE/research_question.md        |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   4 +-\n",
+      " .github/release-drafter.yml                        |  44 ++--\n",
+      " .github/workflows/blossom-ci.yml                   | 230 ++++++++++-----------\n",
+      " .github/workflows/check-base-branch.yaml           |   9 +\n",
+      " .github/workflows/conda-env-create.yml             |  30 +--\n",
+      " .github/workflows/cpu-ci.yml                       | 138 -------------\n",
+      " .github/workflows/cpu-packages.yml                 | 179 ++++++++++++++++\n",
+      " .github/workflows/cpu-tests.yml                    |  75 +++++++\n",
+      " .github/workflows/docs-preview-pr.yaml             |   4 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  30 ---\n",
+      " .github/workflows/gpu-tests.yml                    |  34 +++\n",
+      " .github/workflows/lint.yaml                        |   4 +\n",
+      " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
+      " .gitlab-ci.yml                                     |  23 +--\n",
+      " .pre-commit-config.yaml                            |  47 +++--\n",
+      " .prettierignore                                    |   2 +\n",
+      " CHANGELOG.md                                       | 187 ++++++++---------\n",
+      " CONTRIBUTING.md                                    |  30 +--\n",
+      " README.md                                          |  48 ++---\n",
+      " bench/datasets/tools/nvt_etl.py                    |   4 +-\n",
+      " bench/datasets/tools/train_tensorflow.py           |   1 -\n",
+      " bench/examples/MultiGPUBench.md                    |  67 +++---\n",
+      " bench/examples/dask-nvtabular-criteo-benchmark.py  |   4 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " conda/environments/nvtabular_aws_sagemaker.yml     |   2 +-\n",
+      " conda/recipes/meta.yaml                            |   2 +-\n",
+      " cpp/nvtabular/inference/categorify.cc              |  10 +\n",
+      " docs/README.md                                     |  29 ++-\n",
+      " docs/source/core_features.md                       |  48 ++---\n",
+      " docs/source/resources/architecture.md              |  17 +-\n",
+      " docs/source/resources/cloud_integration.md         |  24 ++-\n",
+      " docs/source/resources/links.md                     |  40 ++--\n",
+      " docs/source/toc.yaml                               |  12 +-\n",
+      " examples/01-Getting-started.ipynb                  |   5 +-\n",
+      " examples/02-Advanced-NVTabular-workflow.ipynb      |   5 +-\n",
+      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |  24 ++-\n",
+      " examples/README.md                                 |   1 +\n",
+      " .../tensorflow/tfrecords_to_parquet.py             |   9 +-\n",
+      " nvtabular/inference/__init__.py                    |   4 +-\n",
+      " nvtabular/inference/triton/data_conversions.py     |  24 +--\n",
+      " nvtabular/inference/triton/ensemble.py             |  86 ++------\n",
+      " nvtabular/inference/triton/model/model_pt.py       |   1 -\n",
+      " nvtabular/inference/workflow/hugectr.py            |   2 +-\n",
+      " nvtabular/loader/backend.py                        |  31 +--\n",
+      " nvtabular/loader/tensorflow.py                     |   1 +\n",
+      " nvtabular/ops/categorify.py                        |   4 +-\n",
+      " nvtabular/ops/column_similarity.py                 |  42 ++--\n",
+      " nvtabular/ops/groupby.py                           |  35 ++--\n",
+      " nvtabular/ops/join_external.py                     |   7 +-\n",
+      " nvtabular/ops/join_groupby.py                      |  18 +-\n",
+      " nvtabular/ops/list_slice.py                        |  22 +-\n",
+      " nvtabular/ops/moments.py                           |   2 -\n",
+      " nvtabular/ops/reduce_dtype_size.py                 |   9 +-\n",
+      " nvtabular/ops/target_encoding.py                   |   2 +-\n",
+      " nvtabular/ops/value_counts.py                      |  14 +-\n",
+      " nvtabular/tools/data_gen.py                        |  31 ++-\n",
+      " nvtabular/utils.py                                 |   2 +-\n",
+      " nvtabular/workflow/workflow.py                     | 169 +++++++++++++--\n",
+      " requirements-test.txt                              |   2 -\n",
+      " requirements/base.txt                              |   4 +-\n",
+      " requirements/test.txt                              |  15 +-\n",
+      " setup.py                                           |   5 +\n",
+      " tests/conftest.py                                  |  33 ++-\n",
+      " .../test_02-Advanced-NVTabular-workflow.py         |  17 +-\n",
+      " .../test_03-Running-on-multiple-GPUs-or-on-CPU.py  |  11 +-\n",
+      " tests/unit/loader/test_tf_dataloader.py            | 206 +++---------------\n",
+      " tests/unit/loader/test_torch_dataloader.py         |  79 ++-----\n",
+      " tests/unit/ops/test_categorify.py                  |  36 +++-\n",
+      " tests/unit/ops/test_column_similarity.py           |   3 +-\n",
+      " tests/unit/ops/test_drop_low_cardinality.py        |   7 +-\n",
+      " tests/unit/ops/test_groupyby.py                    |   9 +-\n",
+      " tests/unit/ops/test_join.py                        |  11 +-\n",
+      " tests/unit/ops/test_lambda.py                      |  28 ++-\n",
+      " tests/unit/ops/test_ops.py                         |  12 +-\n",
+      " tests/unit/ops/test_ops_schema.py                  |  25 ++-\n",
+      " tests/unit/ops/test_reduce_dtype_size.py           |   7 +-\n",
+      " tests/unit/ops/test_target_encode.py               |  11 +-\n",
+      " tests/unit/ops/test_value_count.py                 |   2 +\n",
+      " tests/unit/test_dask_nvt.py                        |   5 +-\n",
+      " tests/unit/test_s3.py                              |   8 +-\n",
+      " tests/unit/test_tf4rec.py                          |  11 +-\n",
+      " tests/unit/test_triton_inference.py                |   3 +-\n",
+      " tests/unit/workflow/test_cpu_workflow.py           |   6 +-\n",
+      " tests/unit/workflow/test_workflow.py               |  92 ++++++++-\n",
+      " tox.ini                                            |  10 +-\n",
+      " 93 files changed, 1448 insertions(+), 1196 deletions(-)\n",
+      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
+      " delete mode 100644 .github/workflows/cpu-ci.yml\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .github/workflows/cpu-tests.yml\n",
+      " delete mode 100644 .github/workflows/gpu-ci.yml\n",
+      " create mode 100644 .github/workflows/gpu-tests.yml\n",
+      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
+      " create mode 100644 .prettierignore\n",
+      " delete mode 100644 requirements-test.txt\n",
+      "Processing /nvtabular\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (1.9.3)\n",
+      "Processing /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7/merlin_core-23.4.0-py3-none-any.whl\n",
+      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+66.g67136eba) (1.22.4)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.56.4)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.5)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.12.0)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.0.0)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.64.1)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.19.6)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (11.4.1)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.5.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.5)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (22.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.57.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.12.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.1.3)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.9.4)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.4)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.1)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.26.13)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.1.2)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.4.0)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.7.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2022.7)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.11.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.4)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.14.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.1)\n",
+      "Building wheels for collected packages: nvtabular\n",
+      "  Building wheel for nvtabular (PEP 517): started\n",
+      "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+66.g67136eba-cp38-cp38-linux_x86_64.whl size=259850 sha256=957958ecd0f9149dbe203eb5e2a3d1b5ec128421aee4e31572f4ca8574131719\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-btpmur92/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "Successfully built nvtabular\n",
+      "Installing collected packages: merlin-core, nvtabular\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 0.9.0+125.ga0bcd30f\n",
+      "    Uninstalling merlin-core-0.9.0+125.ga0bcd30f:\n",
+      "      Successfully uninstalled merlin-core-0.9.0+125.ga0bcd30f\n",
+      "  Attempting uninstall: nvtabular\n",
+      "    Found existing installation: nvtabular 1.8.0\n",
+      "    Uninstalling nvtabular-1.8.0:\n",
+      "      Successfully uninstalled nvtabular-1.8.0\n",
+      "Successfully installed merlin-core-23.4.0 nvtabular-1.6.0+66.g67136eba\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was feaf748 adding async tf strategy for gpu memory (#264)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   20bb231..2b1b90b  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating 20bb231..2b1b90b\n",
+      "Fast-forward\n",
+      " .github/ISSUE_TEMPLATE/bug-report.md               |  17 +-\n",
+      " .github/ISSUE_TEMPLATE/documentation-request.md    |  12 +-\n",
+      " .github/ISSUE_TEMPLATE/feature-request.md          |   5 +-\n",
+      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
+      " .github/ISSUE_TEMPLATE/task.md                     |   5 +-\n",
+      " .github/release-drafter.yml                        |  44 +-\n",
+      " .github/workflows/check-base-branch.yaml           |   9 +\n",
+      " .github/workflows/cpu-ci.yml                       | 128 ++--\n",
+      " .github/workflows/docs-preview-pr.yaml             |   6 +-\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |  40 +-\n",
+      " .github/workflows/lint.yaml                        |  18 +-\n",
+      " .github/workflows/packages.yaml                    | 118 ++++\n",
+      " .github/workflows/postmerge-cpu.yml                |  60 ++\n",
+      " .github/workflows/postmerge-gpu.yml                |  27 +\n",
+      " .github/workflows/release-drafter.yml              |   4 +-\n",
+      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
+      " .pre-commit-config.yaml                            |  71 +-\n",
+      " .prettierignore                                    |   2 +\n",
+      " CLA.md                                             |   9 +-\n",
+      " CONTRIBUTING.md                                    |   2 +-\n",
+      " README.md                                          |   2 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
+      " conda/recipes/meta.yaml                            |  18 +-\n",
+      " docs/README.md                                     |  53 +-\n",
+      " ...ing-An-Implicit-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...ving-An-XGboost-Model-With-Merlin-Systems.ipynb |   5 +-\n",
+      " ...erving-Ranking-Models-With-Merlin-Systems.ipynb |   5 +-\n",
+      " merlin/systems/dag/__init__.py                     |   2 -\n",
+      " merlin/systems/dag/dictarray.py                    | 345 ----------\n",
+      " merlin/systems/dag/ensemble.py                     |   2 +-\n",
+      " merlin/systems/dag/node.py                         |  29 +-\n",
+      " merlin/systems/dag/op_runner.py                    |  68 --\n",
+      " merlin/systems/dag/ops/__init__.py                 |  22 +-\n",
+      " merlin/systems/dag/ops/faiss.py                    | 116 +---\n",
+      " merlin/systems/dag/ops/feast.py                    | 110 +---\n",
+      " merlin/systems/dag/ops/fil.py                      |  74 +--\n",
+      " merlin/systems/dag/ops/implicit.py                 |  84 +--\n",
+      " merlin/systems/dag/ops/operator.py                 | 216 +-----\n",
+      " merlin/systems/dag/ops/pytorch.py                  |  23 +-\n",
+      " merlin/systems/dag/ops/session_filter.py           |  72 +-\n",
+      " merlin/systems/dag/ops/softmax_sampling.py         |  61 +-\n",
+      " merlin/systems/dag/ops/tensorflow.py               | 143 ++--\n",
+      " merlin/systems/dag/ops/unroll_features.py          |  36 +-\n",
+      " merlin/systems/dag/ops/workflow.py                 |  29 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/fil.py      |  51 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/operator.py |  84 ++-\n",
+      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |  27 +-\n",
+      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  41 +-\n",
+      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 132 +++-\n",
+      " merlin/systems/dag/runtimes/triton/runtime.py      |  36 +-\n",
+      " merlin/systems/triton/__init__.py                  | 118 ++--\n",
+      " merlin/systems/triton/conversions.py               | 198 ++++--\n",
+      " merlin/systems/triton/export.py                    | 731 +--------------------\n",
+      " merlin/systems/triton/models/executor_model.py     |  46 +-\n",
+      " merlin/systems/triton/models/oprunner_model.py     | 129 ----\n",
+      " merlin/systems/triton/models/pytorch_model.py      | 139 ++--\n",
+      " merlin/systems/triton/models/workflow_model.py     |  56 +-\n",
+      " merlin/systems/triton/utils.py                     |  58 +-\n",
+      " merlin/systems/workflow/base.py                    |  30 +-\n",
+      " merlin/systems/workflow/hugectr.py                 |  87 ---\n",
+      " merlin/systems/workflow/pytorch.py                 |  46 --\n",
+      " merlin/systems/workflow/tensorflow.py              |  68 --\n",
+      " pytest.ini                                         |   7 +-\n",
+      " requirements/test.txt                              |   2 +-\n",
+      " tests/conftest.py                                  |  36 +-\n",
+      " ...erving_an_implicit_model_with_merlin_systems.py |  12 +-\n",
+      " ...serving_an_xgboost_model_with_merlin_systems.py |   4 +-\n",
+      " tests/integration/tf/test_transformer_model.py     | 103 +++\n",
+      " .../systems/dag/test_column.py => test_passing.py} |  15 +-\n",
+      " tests/unit/systems/dag/ops/test_ops.py             | 101 ++-\n",
+      " .../dag/runtimes/local/ops/fil/test_lightgbm.py    |  15 +-\n",
+      " .../dag/runtimes/local/ops/fil/test_sklearn.py     |  15 +-\n",
+      " .../dag/runtimes/local/ops/fil/test_xgboost.py     |  18 +-\n",
+      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |  10 +-\n",
+      " .../runtimes/local/ops/tensorflow/test_ensemble.py |  35 +-\n",
+      " .../dag/runtimes/local/ops/torch/test_op.py        |   6 +-\n",
+      " .../triton/ops/fil/test_lightgbm_triton.py         |  11 +-\n",
+      " .../runtimes/triton/ops/fil/test_sklearn_triton.py |   4 +-\n",
+      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   7 +-\n",
+      " .../dag/runtimes/triton/ops/torch/test_op.py       |   4 +-\n",
+      " .../runtimes/triton/ops/workflow/test_ensemble.py  | 305 ++++++++-\n",
+      " .../systems/dag/runtimes/triton/test_triton.py     |  21 +-\n",
+      " tests/unit/systems/dag/test_dict_array.py          |  76 ---\n",
+      " tests/unit/systems/dag/test_ensemble.py            |   4 +-\n",
+      " tests/unit/systems/dag/test_executors.py           |  12 +-\n",
+      " tests/unit/systems/dag/test_op_runner.py           | 210 ------\n",
+      " tests/unit/systems/ops/embedding_op.py             |  56 ++\n",
+      " tests/unit/systems/ops/faiss/test_executor.py      |  25 +-\n",
+      " tests/unit/systems/ops/feast/test_op.py            |  76 +--\n",
+      " tests/unit/systems/ops/fil/test_ensemble.py        |  21 +-\n",
+      " tests/unit/systems/ops/fil/test_forest.py          |  47 +-\n",
+      " tests/unit/systems/ops/fil/test_op.py              | 106 ++-\n",
+      " tests/unit/systems/ops/implicit/test_executor.py   |   4 +-\n",
+      " tests/unit/systems/ops/implicit/test_op.py         |  51 +-\n",
+      " tests/unit/systems/ops/padding_op.py               |  62 ++\n",
+      " tests/unit/systems/ops/tf/test_ensemble.py         |  15 +-\n",
+      " tests/unit/systems/ops/tf/test_op.py               |   6 +-\n",
+      " tests/unit/systems/ops/torch/test_ensemble.py      |  97 +++\n",
+      " tests/unit/systems/utils/ops.py                    |  13 +-\n",
+      " tests/unit/systems/utils/tf.py                     |  65 +-\n",
+      " tests/unit/test_export.py                          |  77 ---\n",
+      " tox.ini                                            |  42 +-\n",
+      " 103 files changed, 2427 insertions(+), 3565 deletions(-)\n",
+      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
+      " create mode 100644 .github/workflows/packages.yaml\n",
+      " create mode 100644 .github/workflows/postmerge-cpu.yml\n",
+      " create mode 100644 .github/workflows/postmerge-gpu.yml\n",
+      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
+      " create mode 100644 .prettierignore\n",
+      " delete mode 100644 merlin/systems/dag/dictarray.py\n",
+      " delete mode 100644 merlin/systems/dag/op_runner.py\n",
+      " delete mode 100644 merlin/systems/triton/models/oprunner_model.py\n",
+      " delete mode 100644 merlin/systems/workflow/hugectr.py\n",
+      " delete mode 100644 merlin/systems/workflow/pytorch.py\n",
+      " delete mode 100644 merlin/systems/workflow/tensorflow.py\n",
+      " create mode 100644 tests/integration/tf/test_transformer_model.py\n",
+      " rename tests/{unit/systems/dag/test_column.py => test_passing.py} (66%)\n",
+      " delete mode 100644 tests/unit/systems/dag/test_dict_array.py\n",
+      " delete mode 100644 tests/unit/systems/dag/test_op_runner.py\n",
+      " create mode 100644 tests/unit/systems/ops/embedding_op.py\n",
+      " create mode 100644 tests/unit/systems/ops/padding_op.py\n",
+      " create mode 100644 tests/unit/systems/ops/torch/test_ensemble.py\n",
+      " delete mode 100644 tests/unit/test_export.py\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.28.1)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
+      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (1.6.0+66.g67136eba)\n",
+      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.22.4)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.9.3)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.19.6)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.5)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.0.0)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (11.4.1)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.5.0)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (22.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.56.4)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.12.0)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.8)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (1.26.13)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2019.11.28)\n",
+      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2022.7)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.4.3)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.7.0)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.9.4)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.4)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.1)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.12.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.1.2)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.1.3)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.2.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.39.1)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.57.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.14.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.4)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.1)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.11.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.0.0)\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+98.g2b1b90b-py3-none-any.whl size=83152 sha256=282b1d3abe91766660d30dcbfa6d196c7f13d8d7d1b554eefd02455b7cdc1924\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ojtyyyod/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 0.9.0\n",
+      "    Uninstalling merlin-systems-0.9.0:\n",
+      "      Successfully uninstalled merlin-systems-0.9.0\n",
+      "Successfully installed merlin-systems-0.7.0+98.g2b1b90b\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Previous HEAD position was fd5d3fc Use tf.function for list column operations (#89)\n",
+      "Switched to branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your branch is up to date with 'origin/main'.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * branch            main       -> FETCH_HEAD\n",
+      "   5b3fe46..d9e97b4  main       -> origin/main\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Updating 5b3fe46..d9e97b4\n",
+      "Fast-forward\n",
+      " .github/workflows/check-base-branch.yaml           |   9 +\n",
+      " .github/workflows/cpu-ci.yml                       |  83 +----\n",
+      " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
+      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
+      " .github/workflows/gpu-ci.yml                       |   2 +-\n",
+      " .github/workflows/jax.yaml                         |   2 +-\n",
+      " .github/workflows/models.yml                       |  43 +++\n",
+      " .github/workflows/nvtabular.yml                    |  43 +++\n",
+      " .github/workflows/release-drafter.yaml             |   2 +-\n",
+      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
+      " .github/workflows/systems.yml                      |  43 +++\n",
+      " .github/workflows/tensorflow.yml                   |   2 +-\n",
+      " .github/workflows/torch.yaml                       |   2 +-\n",
+      " .github/workflows/transformers4rec.yml             |  43 +++\n",
+      " .pre-commit-config.yaml                            |  14 +-\n",
+      " ci/pr.gpu.Jenkinsfile                              |  44 +++\n",
+      " docs/README.md                                     |  28 +-\n",
+      " examples/01a-Getting-started-Tensorflow.ipynb      |   5 +-\n",
+      " examples/01b-Getting-started-Pytorch.ipynb         |   5 +-\n",
+      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 ++++++++++++++++++\n",
+      " merlin/dataloader/jax.py                           |  52 +--\n",
+      " merlin/dataloader/loader_base.py                   | 413 +++++++++------------\n",
+      " merlin/dataloader/ops/embeddings.py                | 110 ++++++\n",
+      " merlin/dataloader/ops/embeddings/__init__.py       |  15 -\n",
+      " merlin/dataloader/ops/embeddings/embedding_op.py   | 237 ------------\n",
+      " .../dataloader/ops/embeddings/tf_embedding_op.py   | 101 -----\n",
+      " .../ops/embeddings/torch_embedding_op.py           | 106 ------\n",
+      " merlin/dataloader/ops/padding.py                   |  88 +++++\n",
+      " merlin/dataloader/tensorflow.py                    | 337 +++++------------\n",
+      " merlin/dataloader/torch.py                         | 225 +++++------\n",
+      " merlin/dataloader/utils/tf/tf_trainer.py           |  13 +-\n",
+      " requirements/base.txt                              |   2 +-\n",
+      " tests/conftest.py                                  |  11 +-\n",
+      " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
+      " tests/unit/dataloader/test_array_dataloader.py     |  57 +++\n",
+      " tests/unit/dataloader/test_array_to_tensorflow.py  |  54 +++\n",
+      " tests/unit/dataloader/test_array_to_torch.py       |  69 ++++\n",
+      " .../{test_tf_embeddings.py => test_embeddings.py}  | 188 +++++-----\n",
+      " tests/unit/dataloader/test_jax_dataloader.py       |  29 +-\n",
+      " tests/unit/dataloader/test_padding.py              |  46 +++\n",
+      " tests/unit/dataloader/test_tf_dataloader.py        | 358 +++++++++---------\n",
+      " tests/unit/dataloader/test_torch_dataloader.py     | 245 ++++++++----\n",
+      " tests/unit/dataloader/test_torch_embeddings.py     | 242 ------------\n",
+      " tox.ini                                            |  55 +++\n",
+      " 44 files changed, 2154 insertions(+), 1810 deletions(-)\n",
+      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
+      " create mode 100644 .github/workflows/cpu-packages.yml\n",
+      " create mode 100644 .github/workflows/models.yml\n",
+      " create mode 100644 .github/workflows/nvtabular.yml\n",
+      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
+      " create mode 100644 .github/workflows/systems.yml\n",
+      " create mode 100644 .github/workflows/transformers4rec.yml\n",
+      " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
+      " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
+      " create mode 100644 merlin/dataloader/ops/embeddings.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/__init__.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/embedding_op.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/tf_embedding_op.py\n",
+      " delete mode 100644 merlin/dataloader/ops/embeddings/torch_embedding_op.py\n",
+      " create mode 100644 merlin/dataloader/ops/padding.py\n",
+      " create mode 100644 tests/examples/test_multi_GPU_with_horovod_and_tensorflow.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_dataloader.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_to_tensorflow.py\n",
+      " create mode 100644 tests/unit/dataloader/test_array_to_torch.py\n",
+      " rename tests/unit/dataloader/{test_tf_embeddings.py => test_embeddings.py} (52%)\n",
+      " create mode 100644 tests/unit/dataloader/test_padding.py\n",
+      " delete mode 100644 tests/unit/dataloader/test_torch_embeddings.py\n",
+      "Processing /dataloader\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Requirement already satisfied: merlin-core>=23.04.00 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.56.4)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.5)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.0.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.64.1)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (11.4.1)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.12.0)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (22.0)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.22.4)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.19.6)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.5.0)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.39.1)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.2.0)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.8.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2022.7)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.0)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.4.3)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.9.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.4)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.1)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.1.2)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.4.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.7.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.12.0)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.26.13)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.1.3)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.57.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.14.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.1.0)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.1.1)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.1)\n",
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+72.gd9e97b4-py3-none-any.whl size=34881 sha256=c39b7e146f814713447917029d09f8cf4978202ed3852dce51544461cd074e3b\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-t_njcpzr/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "ERROR: nvtabular 1.6.0+66.g67136eba has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n",
+      "ERROR: merlin-models 23.5.dev0+12.gd8133b8f has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 23.4.0\n",
+      "    Uninstalling merlin-dataloader-23.4.0:\n",
+      "      Successfully uninstalled merlin-dataloader-23.4.0\n",
+      "Successfully installed merlin-dataloader-0.0.2+72.gd9e97b4\n"
+     ]
+    }
+   ],
    "source": [
     "# %%bash\n",
     "\n",
-    "# # cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
+    "# cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
     "# cd /models && git checkout main && git pull origin main && pip install .\n",
     "# cd /core && git checkout main && git pull origin main && pip install .\n",
     "# cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
     "# cd /systems && git checkout main && git pull origin main && pip install .\n",
-    "# cd /dataloader && git checkout main && git pull origin main && pip install .\n",
-    "\n",
-    "# ---\n",
-    "# pip install matplotlib"
+    "# cd /dataloader && git checkout main && git pull origin main && pip install ."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 3,
    "id": "e9929dc8",
    "metadata": {},
    "outputs": [
@@ -30,18 +1531,22 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.7.1)\n",
-      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
+      "Collecting gdown\n",
+      "  Downloading gdown-4.7.1-py3-none-any.whl (15 kB)\n",
       "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
-      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
       "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
       "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
       "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
       "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
-      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n"
+      "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
+      "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
+      "Installing collected packages: gdown, PySocks\n",
+      "Successfully installed PySocks-1.7.1 gdown-4.7.1\n"
      ]
     },
     {
@@ -50,26 +1555,42 @@
      "text": [
       "Downloading...\n",
       "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=0dd96474-79af-47bb-9148-b96d64204e14\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=b5bb23eb-a2dd-4adc-b7b7-be5687c89aca\n",
       "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:12<00:00, 3.62MB/s]\n"
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.20MB/s]\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease\n",
-      "Hit:2 http://archive.ubuntu.com/ubuntu focal InRelease\n",
-      "Hit:3 http://security.ubuntu.com/ubuntu focal-security InRelease\n",
-      "Hit:4 http://archive.ubuntu.com/ubuntu focal-updates InRelease\n",
-      "Hit:5 http://archive.ubuntu.com/ubuntu focal-backports InRelease\n",
+      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [1009 kB]\n",
+      "Get:3 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:4 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:9 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:11 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:13 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Fetched 27.3 MB in 9s (2922 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
       "Reading state information...\n",
       "unzip is already the newest version (6.0-25ubuntu1.1).\n",
-      "0 upgraded, 0 newly installed, 0 to remove and 98 not upgraded.\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 99 not upgraded.\n",
       "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
       "   creating: ecom_dataset/0001/\n",
       "  inflating: ecom_dataset/0001/valid.parquet  \n",
@@ -84,17 +1605,17 @@
     }
    ],
    "source": [
-    "%%bash\n",
+    "# %%bash\n",
     "\n",
-    "rm -rf ecom_dataset\n",
-    "mkdir -p ecom_dataset\n",
+    "# rm -rf ecom_dataset\n",
+    "# mkdir -p ecom_dataset\n",
     "\n",
-    "pip install gdown\n",
-    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
-    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-    "apt-get update -y\n",
-    "apt-get install unzip -y\n",
-    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+    "# pip install gdown\n",
+    "# # gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "# gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "# apt-get update -y\n",
+    "# apt-get install unzip -y\n",
+    "# unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
    ]
   },
   {
@@ -353,18 +1874,47 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
-   "id": "ceb3ae93",
+   "execution_count": 4,
+   "id": "0660887b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "# os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "ec38f1a6",
    "metadata": {},
    "outputs": [
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-04-13 11:21:28.090236: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+      "2023-05-09 01:50:24.115697: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
      ]
-    },
+    }
+   ],
+   "source": [
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "ceb3ae93",
+   "metadata": {},
+   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
@@ -376,11 +1926,9 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "2023-04-13 11:21:30.471061: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:30.471514: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:30.471678: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
+      "2023-05-09 01:50:26.436605: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:26.437013: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:26.437158: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
      ]
     },
     {
@@ -397,38 +1945,28 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-04-13 11:21:30.757567: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-05-09 01:50:26.674203: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:21:30.758435: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:30.758639: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:30.758792: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:31.508591: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:31.508802: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:31.508961: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:21:31.509071: W tensorflow/core/common_runtime/gpu/gpu_bfc_allocator.cc:42] Overriding orig_value setting because the TF_FORCE_GPU_ALLOW_GROWTH environment variable is set. Original config value was 0.\n",
-      "2023-04-13 11:21:31.509079: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-04-13 11:21:31.509140: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "2023-05-09 01:50:26.675123: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:26.675302: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:26.675428: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:27.455564: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:27.455749: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:27.455877: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:50:27.455980: W tensorflow/core/common_runtime/gpu/gpu_bfc_allocator.cc:42] Overriding orig_value setting because the TF_FORCE_GPU_ALLOW_GROWTH environment variable is set. Original config value was 0.\n",
+      "2023-05-09 01:50:27.456001: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
       "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
       "  from .autonotebook import tqdm as notebook_tqdm\n"
      ]
     }
    ],
    "source": [
-    "import os\n",
-    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
-    "import gc\n",
-    "import numpy as np\n",
-    "\n",
-    "import tensorflow as tf\n",
-    "\n",
-    "from merlin.schema.tags import Tags\n",
-    "from merlin.io.dataset import Dataset\n",
     "import merlin.models.tf as mm"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 7,
    "id": "11647dd3",
    "metadata": {},
    "outputs": [],
@@ -439,7 +1977,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 8,
    "id": "4ab4e0fb",
    "metadata": {},
    "outputs": [],
@@ -450,7 +1988,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": 9,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
@@ -469,7 +2007,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 10,
    "id": "410ea223",
    "metadata": {},
    "outputs": [],
@@ -480,7 +2018,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 11,
    "id": "4328f03a",
    "metadata": {},
    "outputs": [],
@@ -492,231 +2030,11804 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
-   "id": "4571b92b",
+   "execution_count": 12,
+   "id": "d5a9dd50",
    "metadata": {},
    "outputs": [],
-   "source": []
+   "source": [
+    "ops = ['sess_pid_seq'] >> Categorify(dtype=np.int32) #>> Rename(name=seq_name)\n",
+    "\n",
+    "wf = Workflow(ops)\n",
+    "\n",
+    "train = wf.fit_transform(train)\n",
+    "valid = wf.transform(valid)"
+   ]
   },
   {
    "cell_type": "code",
    "execution_count": 13,
-   "id": "d5a9dd50",
+   "id": "3116726e",
    "metadata": {},
    "outputs": [],
    "source": [
-    "ops = ['sess_pid_seq'] >> Categorify(dtype=np.int32) #>> Rename(name=seq_name)\n",
+    "# cat rees46_schema_modified.pbtxt"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "69e8f95c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%writefile rees46_schema_modified_2.pbtxt\n",
     "\n",
-    "wf = Workflow(ops)\n",
+    "# feature {\n",
+    "#   name: \"seq\"\n",
+    "#   value_count {\n",
+    "#     min: 2\n",
+    "#   }\n",
+    "#   type: INT\n",
+    "#   int_domain {\n",
+    "#     name: \"seq\"\n",
+    "#     min: 1\n",
+    "#     max: 390000\n",
+    "#     is_categorical: true\n",
+    "#   }\n",
+    "#   annotation {\n",
+    "#     tag: \"item_id\"\n",
+    "#     tag: \"list\"\n",
+    "#     tag: \"categorical\"\n",
+    "#     tag: \"item\"\n",
+    "#   }\n",
+    "# }"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
     "\n",
-    "train = wf.fit_transform(train)\n",
-    "valid = wf.transform(valid)"
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        './',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name(seq_name)\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "076f42cc",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_transformer, xlnet_block = get_model()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "523fe2ac",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n",
+      "2023-05-09 01:50:35.053579: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "677/677 [==============================] - 105s 143ms/step - loss: 7.2880 - recall_at_20: 0.1451 - mrr_at_20: 0.0813 - ndcg_at_20: 0.0954 - map_at_20: 0.0813 - precision_at_20: 0.0073 - regularization_loss: 0.0000e+00 - loss_batch: 7.2857\n",
+      "84/84 [==============================] - 4s 26ms/step - loss: 8.5378 - recall_at_20: 0.2315 - mrr_at_20: 0.0811 - ndcg_at_20: 0.1142 - map_at_20: 0.0811 - precision_at_20: 0.0116 - regularization_loss: 0.0000e+00 - loss_batch: 8.5385\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.537825584411621,\n",
+       " 'recall_at_20': 0.2337784469127655,\n",
+       " 'mrr_at_20': 0.07926096022129059,\n",
+       " 'ndcg_at_20': 0.11324834823608398,\n",
+       " 'map_at_20': 0.07926096022129059,\n",
+       " 'precision_at_20': 0.011688923463225365,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 8.566910743713379}"
+      ]
+     },
+     "execution_count": 17,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "febab09e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return generic_utils.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_transformer.save('t4rec_model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "8e0ea1b1",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "Model(\n",
+       "  (_should_compute_train_metrics_for_batch): <tf.Variable 'should_compute_train_metrics_for_batch:0' shape=() dtype=bool, numpy=True>\n",
+       "  (blocks): _TupleWrapper((SequentialBlock(\n",
+       "    (layers): List(\n",
+       "      (0): ParallelBlock(\n",
+       "        (_aggregation): ConcatFeatures(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (parallel_layers): Dict(\n",
+       "          (categorical): ParallelBlock(\n",
+       "            (parallel_layers): Dict(\n",
+       "              (sess_pid_seq): EmbeddingTable(\n",
+       "                (features): Dict(\n",
+       "                  (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
+       "                )\n",
+       "                (table): Embedding(\n",
+       "                  (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
+       "                  array([[-0.07078984,  0.02619123, -0.0765224 , ..., -0.00312191,\n",
+       "                          -0.05631081,  0.00704953],\n",
+       "                         [ 0.01045333,  0.00758395,  0.04146114, ...,  0.04109409,\n",
+       "                           0.03323384, -0.01482256],\n",
+       "                         [ 0.05135752,  0.00544662,  0.01021936, ...,  0.01505754,\n",
+       "                           0.04705757,  0.05248646],\n",
+       "                         ...,\n",
+       "                         [-0.01608207, -0.01954165, -0.07535209, ..., -0.04260258,\n",
+       "                          -0.01301942, -0.06323248],\n",
+       "                         [-0.06214527, -0.00186577, -0.0687324 , ..., -0.06297008,\n",
+       "                           0.01791379,  0.00888064],\n",
+       "                         [ 0.00934703, -0.02699249, -0.05696923, ..., -0.01498478,\n",
+       "                          -0.02875059, -0.01258981]], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (1): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): _Dense(\n",
+       "            (dense): Dense(\n",
+       "              192, activation=linear, use_bias=True\n",
+       "              (kernel): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/kernel:0' shape=(448, 192) dtype=float32, numpy=\n",
+       "              array([[ 0.02981133,  0.06461035,  0.01510283, ...,  0.1004636 ,\n",
+       "                       0.08716937, -0.08222788],\n",
+       "                     [ 0.12464947, -0.01943095, -0.08936852, ..., -0.11199582,\n",
+       "                      -0.00518215,  0.03097023],\n",
+       "                     [-0.05487638, -0.03602364,  0.01802338, ...,  0.07153857,\n",
+       "                      -0.07527662,  0.08495165],\n",
+       "                     ...,\n",
+       "                     [-0.1403924 ,  0.05157026, -0.02877661, ..., -0.06823655,\n",
+       "                      -0.01583085,  0.00734937],\n",
+       "                     [ 0.0970163 ,  0.00122412, -0.06907965, ...,  0.00457447,\n",
+       "                       0.13658312, -0.03208682],\n",
+       "                     [ 0.12975962, -0.08130139,  0.06337038, ..., -0.05003506,\n",
+       "                       0.10430032, -0.0064334 ]], dtype=float32)>\n",
+       "              (bias): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "              array([ 1.43787926e-02,  1.59404390e-02,  1.67473760e-02,  7.21977139e-03,\n",
+       "                      6.33917842e-03,  2.58572530e-02,  3.13014239e-02,  1.73701141e-02,\n",
+       "                      1.48087014e-02,  2.96549569e-03, -2.38333214e-02,  8.77642911e-03,\n",
+       "                      1.06761325e-02,  3.36384363e-02,  4.62334929e-03, -8.29183683e-03,\n",
+       "                     -8.38614441e-03,  5.23438072e-03, -1.13991052e-02, -8.36018473e-03,\n",
+       "                     -1.31951617e-02,  2.81518009e-02, -9.40237835e-04,  9.32820234e-03,\n",
+       "                      1.33291865e-02, -1.77176334e-02,  2.10216315e-03,  1.87406167e-02,\n",
+       "                      1.61009599e-02, -8.48586764e-03, -1.15597923e-03, -3.26531157e-02,\n",
+       "                     -2.06898451e-02,  5.39109018e-03, -1.36626642e-02, -1.38687436e-02,\n",
+       "                     -2.26706192e-02,  6.11577649e-03, -3.18103912e-03,  1.94463357e-02,\n",
+       "                     -8.99321120e-03,  1.10318577e-02, -3.57778568e-04, -2.15437096e-02,\n",
+       "                      8.29706341e-03,  1.93839315e-02, -1.22853033e-02,  4.07569576e-03,\n",
+       "                     -3.85260396e-03,  1.50105879e-02,  2.51611378e-02, -1.21379722e-04,\n",
+       "                     -8.72366596e-03,  1.10414680e-02,  8.01387336e-03,  1.93086620e-02,\n",
+       "                     -1.17792934e-02, -1.27949128e-02, -1.77857298e-02,  6.12063659e-03,\n",
+       "                     -1.06555698e-02,  2.38406751e-02,  1.68557782e-02, -2.46193428e-02,\n",
+       "                     -4.28844243e-04, -9.85239353e-03, -8.28314759e-03, -1.45868491e-02,\n",
+       "                     -2.00257804e-02, -2.40923855e-02, -1.39658488e-02, -1.27546610e-02,\n",
+       "                     -9.04119946e-03, -4.83184028e-03, -2.38742288e-02,  8.41362681e-03,\n",
+       "                      6.28646929e-03, -6.15912909e-03, -1.63500663e-02, -2.31754519e-02,\n",
+       "                      1.32788168e-02,  9.51185077e-03,  1.65086053e-02, -1.60954632e-02,\n",
+       "                      9.85623058e-03,  2.38858704e-02,  3.10745835e-02,  2.13986728e-02,\n",
+       "                      2.30935402e-02,  4.93171439e-03,  2.00362224e-03, -1.62822679e-02,\n",
+       "                     -8.62161350e-03,  4.49663820e-03, -2.08899472e-03, -5.89254498e-03,\n",
+       "                     -2.94782836e-02, -1.22268952e-03, -1.93146132e-02,  1.21866888e-03,\n",
+       "                     -1.87950805e-02,  2.44022720e-02,  1.59054287e-02,  2.21225247e-02,\n",
+       "                      3.15532903e-03,  1.12948762e-02,  8.12306348e-03,  1.56098893e-02,\n",
+       "                     -1.17675038e-02, -1.63580347e-02,  1.88086070e-02, -1.38652390e-02,\n",
+       "                     -3.15350899e-03,  8.77492130e-03,  1.18342219e-02, -1.49739422e-02,\n",
+       "                      6.47581508e-03,  3.03330850e-02, -1.90902874e-02, -1.45000021e-03,\n",
+       "                     -1.03481673e-02,  7.81869609e-03,  1.72040816e-02,  6.01074891e-03,\n",
+       "                     -5.98280178e-03,  1.62119158e-02, -3.46120563e-03,  2.07602121e-02,\n",
+       "                     -2.54524648e-02,  1.74027961e-02, -3.89394991e-04, -1.67317968e-02,\n",
+       "                     -1.35547416e-02, -9.72852856e-03,  1.18460059e-02,  1.24235135e-02,\n",
+       "                     -1.63785629e-02,  1.74656305e-02,  1.90548915e-02,  1.04588689e-03,\n",
+       "                     -1.90762617e-03,  7.47023476e-03, -2.55116820e-02, -1.26734246e-02,\n",
+       "                     -4.49683182e-02,  1.02095297e-02,  1.64573826e-02, -3.88838630e-03,\n",
+       "                      2.11874070e-03,  1.12091172e-02,  3.44686466e-03, -1.45416530e-02,\n",
+       "                     -4.72093653e-03, -8.66287446e-04,  2.89157755e-03, -1.11150099e-02,\n",
+       "                     -6.02090824e-03, -4.13971767e-03, -6.68562716e-05, -5.79372188e-03,\n",
+       "                      4.68081189e-03,  2.69649494e-02, -1.22015532e-02,  5.52360713e-03,\n",
+       "                      1.16638672e-02, -3.86768812e-03, -2.13873144e-02,  1.76261328e-02,\n",
+       "                     -1.74660943e-02, -4.66883089e-03,  6.08942751e-03, -1.52808484e-02,\n",
+       "                      8.08198191e-03, -1.73900351e-02,  2.05766819e-02, -1.57578122e-02,\n",
+       "                     -1.46813886e-02, -3.82549944e-03,  9.23505798e-03,  2.55444204e-04,\n",
+       "                     -1.10080764e-02, -5.10681840e-03, -4.75318544e-03,  1.36948908e-02,\n",
+       "                     -1.06984098e-02, -1.48467710e-02, -4.16625105e-03, -1.44588202e-02,\n",
+       "                      1.68166235e-02,  6.71163388e-03, -1.79299600e-02,  5.36123384e-03],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (2): XLNetBlock(\n",
+       "        (transformer): TFXLNetMainLayer(\n",
+       "          (word_embedding): TFSharedEmbeddings(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (layer): List(\n",
+       "            (0): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
+       "                         1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
+       "                         1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
+       "                         0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
+       "                         0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
+       "                         1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
+       "                         0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
+       "                         1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
+       "                         1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
+       "                         0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
+       "                         1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
+       "                         0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
+       "                         1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
+       "                         1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
+       "                         0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
+       "                         1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
+       "                         1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
+       "                         0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
+       "                         1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
+       "                         1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
+       "                         0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
+       "                         1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
+       "                         1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
+       "                         1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
+       "                         1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
+       "                         1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
+       "                         1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
+       "                         1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
+       "                         1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
+       "                         0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
+       "                         1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
+       "                         1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
+       "                         0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
+       "                         1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
+       "                         1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
+       "                         0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
+       "                         1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
+       "                         1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
+       "                         1.0107577 , 1.0596876 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
+       "                          6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
+       "                         -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
+       "                          1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
+       "                         -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
+       "                         -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
+       "                          5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
+       "                         -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
+       "                          1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
+       "                         -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
+       "                         -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
+       "                          3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
+       "                          1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
+       "                         -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
+       "                          5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
+       "                          1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
+       "                         -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
+       "                         -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
+       "                         -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
+       "                         -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
+       "                         -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
+       "                          3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
+       "                          1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
+       "                         -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
+       "                         -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
+       "                         -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
+       "                         -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
+       "                          3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
+       "                          7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
+       "                         -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
+       "                          1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
+       "                         -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
+       "                         -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
+       "                         -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
+       "                         -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
+       "                          4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
+       "                         -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
+       "                          1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
+       "                         -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
+       "                         -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
+       "                         -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
+       "                         -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
+       "                          3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
+       "                          3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
+       "                         -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
+       "                         -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
+       "                         -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
+       "                          2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
+       "                         -0.12369698, -0.12235671],\n",
+       "                        [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
+       "                          0.02513896,  0.02814367],\n",
+       "                        [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
+       "                          0.13238919, -0.11256532],\n",
+       "                        ...,\n",
+       "                        [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
+       "                         -0.08214942, -0.12410881],\n",
+       "                        [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
+       "                          0.06023917,  0.07214421],\n",
+       "                        [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
+       "                         -0.06763364,  0.05550697]],\n",
+       "                \n",
+       "                       [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
+       "                          0.09601118,  0.09255827],\n",
+       "                        [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
+       "                          0.0475458 , -0.07742295],\n",
+       "                        [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
+       "                         -0.05903677,  0.03677876],\n",
+       "                        ...,\n",
+       "                        [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
+       "                          0.10452053,  0.12009949],\n",
+       "                        [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
+       "                         -0.10300028, -0.1044563 ],\n",
+       "                        [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
+       "                          0.06220397, -0.09111064]],\n",
+       "                \n",
+       "                       [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
+       "                         -0.02168103,  0.01568287],\n",
+       "                        [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
+       "                          0.03995887, -0.01548792],\n",
+       "                        [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
+       "                          0.08776175, -0.08319726],\n",
+       "                        ...,\n",
+       "                        [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
+       "                          0.07759988,  0.03240566],\n",
+       "                        [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
+       "                         -0.031378  , -0.02404469],\n",
+       "                        [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
+       "                         -0.02130386,  0.04530597]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
+       "                          0.15062724,  0.12837149],\n",
+       "                        [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
+       "                          0.04776929, -0.08523804],\n",
+       "                        [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
+       "                         -0.09076596,  0.08992289],\n",
+       "                        ...,\n",
+       "                        [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
+       "                          0.10044491,  0.12639156],\n",
+       "                        [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
+       "                         -0.05817353, -0.03657222],\n",
+       "                        [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
+       "                          0.04052235, -0.05048911]],\n",
+       "                \n",
+       "                       [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
+       "                         -0.0087873 ,  0.00054167],\n",
+       "                        [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
+       "                         -0.03617225,  0.04379632],\n",
+       "                        [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
+       "                          0.00649468,  0.00245123],\n",
+       "                        ...,\n",
+       "                        [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
+       "                         -0.01775305,  0.01014595],\n",
+       "                        [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
+       "                         -0.01851957,  0.00425063],\n",
+       "                        [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
+       "                          0.00027551,  0.04116082]],\n",
+       "                \n",
+       "                       [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
+       "                          0.11864589,  0.10221381],\n",
+       "                        [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
+       "                         -0.05264059,  0.00311177],\n",
+       "                        [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
+       "                         -0.04377652,  0.03546317],\n",
+       "                        ...,\n",
+       "                        [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
+       "                          0.02304599,  0.05762106],\n",
+       "                        [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
+       "                         -0.05019034, -0.04568675],\n",
+       "                        [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
+       "                          0.04290378, -0.0746149 ]]], dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
+       "                         -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
+       "                        [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
+       "                          2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
+       "                        [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
+       "                          2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
+       "                        ...,\n",
+       "                        [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
+       "                         -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
+       "                        [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
+       "                          3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
+       "                        [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
+       "                         -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
+       "                \n",
+       "                       [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
+       "                         -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
+       "                        [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
+       "                         -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
+       "                        [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
+       "                          3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
+       "                        ...,\n",
+       "                        [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
+       "                          1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
+       "                        [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
+       "                         -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
+       "                        [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
+       "                         -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
+       "                \n",
+       "                       [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
+       "                         -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
+       "                        [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
+       "                          1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
+       "                        [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
+       "                          1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
+       "                        ...,\n",
+       "                        [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
+       "                         -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
+       "                        [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
+       "                          2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
+       "                        [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
+       "                         -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
+       "                         -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
+       "                        [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
+       "                          4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
+       "                        [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
+       "                          3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
+       "                        ...,\n",
+       "                        [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
+       "                          1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
+       "                        [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
+       "                         -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
+       "                        [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
+       "                          2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
+       "                \n",
+       "                       [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
+       "                          6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
+       "                        [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
+       "                         -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
+       "                        [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
+       "                         -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
+       "                         -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
+       "                        [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
+       "                          5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
+       "                        [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
+       "                          4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
+       "                \n",
+       "                       [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
+       "                         -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
+       "                        [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
+       "                         -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
+       "                        [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
+       "                          1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
+       "                        ...,\n",
+       "                        [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
+       "                          1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
+       "                        [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
+       "                         -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
+       "                        [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
+       "                         -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
+       "                          1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
+       "                        [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
+       "                         -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
+       "                        [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
+       "                         -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
+       "                        ...,\n",
+       "                        [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
+       "                         -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
+       "                        [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
+       "                         -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
+       "                        [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
+       "                          1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
+       "                \n",
+       "                       [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
+       "                         -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
+       "                        [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
+       "                          1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
+       "                        [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
+       "                         -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
+       "                        ...,\n",
+       "                        [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
+       "                          4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
+       "                        [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
+       "                         -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
+       "                        [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
+       "                         -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
+       "                \n",
+       "                       [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
+       "                         -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
+       "                        [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
+       "                          3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
+       "                        [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
+       "                          1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
+       "                        ...,\n",
+       "                        [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
+       "                          8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
+       "                        [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
+       "                          2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
+       "                        [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
+       "                          1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
+       "                          1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
+       "                        [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
+       "                         -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
+       "                        [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
+       "                         -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
+       "                        ...,\n",
+       "                        [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
+       "                          1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
+       "                        [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
+       "                          9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
+       "                        [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
+       "                          2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
+       "                \n",
+       "                       [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
+       "                         -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
+       "                        [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
+       "                         -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
+       "                        [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
+       "                         -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
+       "                        ...,\n",
+       "                        [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
+       "                         -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
+       "                        [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
+       "                          7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
+       "                        [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
+       "                          2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
+       "                \n",
+       "                       [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
+       "                         -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
+       "                        [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
+       "                          1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
+       "                        [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
+       "                          5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
+       "                        ...,\n",
+       "                        [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
+       "                          9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
+       "                        [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
+       "                         -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
+       "                        [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
+       "                          3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
+       "                          1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
+       "                        [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
+       "                          1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
+       "                        [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
+       "                          1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
+       "                        ...,\n",
+       "                        [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
+       "                          2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
+       "                        [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
+       "                         -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
+       "                        [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
+       "                          3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
+       "                \n",
+       "                       [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
+       "                         -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
+       "                        [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
+       "                          4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
+       "                        [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
+       "                         -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
+       "                        ...,\n",
+       "                        [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
+       "                          1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
+       "                        [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
+       "                         -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
+       "                        [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
+       "                         -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
+       "                \n",
+       "                       [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
+       "                         -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
+       "                        [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
+       "                          1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
+       "                        [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
+       "                          8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
+       "                        ...,\n",
+       "                        [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
+       "                          3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
+       "                        [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
+       "                          1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
+       "                        [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
+       "                          5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
+       "                         -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
+       "                        [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
+       "                          3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
+       "                        [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
+       "                          5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
+       "                        ...,\n",
+       "                        [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
+       "                         -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
+       "                        [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
+       "                          1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
+       "                        [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
+       "                          5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
+       "                \n",
+       "                       [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
+       "                          2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
+       "                        [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
+       "                         -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
+       "                        [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
+       "                         -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
+       "                        ...,\n",
+       "                        [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
+       "                         -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
+       "                        [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
+       "                          1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
+       "                        [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
+       "                          2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
+       "                \n",
+       "                       [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
+       "                         -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
+       "                        [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
+       "                         -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
+       "                        [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
+       "                          1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
+       "                        ...,\n",
+       "                        [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
+       "                          2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
+       "                        [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
+       "                         -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
+       "                        [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
+       "                         -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
+       "                         -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
+       "                        [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
+       "                          2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
+       "                        [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
+       "                          1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
+       "                        ...,\n",
+       "                        [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
+       "                         -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
+       "                        [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
+       "                         -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
+       "                        [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
+       "                         -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
+       "                \n",
+       "                       [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
+       "                         -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
+       "                        [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
+       "                          1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
+       "                        [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
+       "                          7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
+       "                        ...,\n",
+       "                        [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
+       "                         -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
+       "                        [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
+       "                         -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
+       "                        [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
+       "                         -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
+       "                \n",
+       "                       [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
+       "                         -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
+       "                        [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
+       "                          1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
+       "                        [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
+       "                          1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
+       "                        ...,\n",
+       "                        [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
+       "                         -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
+       "                        [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
+       "                         -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
+       "                        [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
+       "                         -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
+       "                         -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
+       "                        [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
+       "                          1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
+       "                        [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
+       "                          3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
+       "                        ...,\n",
+       "                        [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
+       "                         -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
+       "                        [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
+       "                         -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
+       "                        [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
+       "                          2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
+       "                \n",
+       "                       [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
+       "                          2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
+       "                        [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
+       "                         -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
+       "                        [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
+       "                         -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
+       "                          8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
+       "                        [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
+       "                          5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
+       "                        [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
+       "                          1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
+       "                \n",
+       "                       [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
+       "                         -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
+       "                        [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
+       "                         -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
+       "                        [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
+       "                         -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
+       "                        ...,\n",
+       "                        [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
+       "                         -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
+       "                        [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
+       "                         -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
+       "                        [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
+       "                         -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
+       "                         0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
+       "                         0.37070706,  0.35559788],\n",
+       "                       [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
+       "                         0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
+       "                         0.0776644 , -0.07216003],\n",
+       "                       [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
+       "                         0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
+       "                        -0.16261199,  0.16058037],\n",
+       "                       [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
+       "                        -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
+       "                        -0.20082442, -0.21696469],\n",
+       "                       [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
+       "                        -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
+       "                         0.24445428,  0.27668142],\n",
+       "                       [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
+       "                        -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
+       "                        -0.29824102, -0.31075856],\n",
+       "                       [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
+       "                        -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
+       "                        -0.38081092, -0.39247522],\n",
+       "                       [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
+       "                         0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
+       "                        -0.23054157, -0.22402786],\n",
+       "                       [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
+       "                         0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
+       "                         0.33728704, -0.35013184],\n",
+       "                       [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
+       "                        -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
+       "                         0.29340708,  0.2927634 ],\n",
+       "                       [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
+       "                         0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
+       "                        -0.35776407, -0.33932883],\n",
+       "                       [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
+       "                        -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
+       "                         0.3707558 , -0.3911879 ],\n",
+       "                       [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
+       "                        -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
+       "                         0.12306441,  0.10861646],\n",
+       "                       [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
+       "                         0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
+       "                         0.39667937,  0.38020003],\n",
+       "                       [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
+       "                        -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
+       "                        -0.29706052, -0.31455588],\n",
+       "                       [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
+       "                        -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
+       "                         0.10973554, -0.05313613]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
+       "                         0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
+       "                        -0.01393487, -0.01188555],\n",
+       "                       [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
+       "                         0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
+       "                        -0.00388369, -0.01727411],\n",
+       "                       [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
+       "                         0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
+       "                         0.12056144, -0.15448172],\n",
+       "                       [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
+       "                        -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
+       "                        -0.11767636, -0.10332035],\n",
+       "                       [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
+       "                        -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
+       "                         0.09375099,  0.09006778],\n",
+       "                       [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
+       "                        -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
+       "                        -0.07627007, -0.09407212],\n",
+       "                       [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
+       "                        -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
+       "                        -0.09510182, -0.07508499],\n",
+       "                       [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
+       "                         0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
+       "                        -0.11242524, -0.12828752],\n",
+       "                       [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
+       "                         0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
+       "                         0.1122688 , -0.0936246 ],\n",
+       "                       [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
+       "                        -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
+       "                         0.08842966,  0.07842822],\n",
+       "                       [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
+       "                         0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
+       "                        -0.11914786, -0.05327021],\n",
+       "                       [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
+       "                        -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
+       "                         0.12055498, -0.11824764],\n",
+       "                       [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
+       "                         0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
+       "                         0.11570179,  0.13300925],\n",
+       "                       [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
+       "                         0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
+       "                         0.14165434,  0.07234689],\n",
+       "                       [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
+       "                        -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
+       "                        -0.0326612 , -0.05191225],\n",
+       "                       [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
+       "                         0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
+       "                         0.03455094,  0.00630618]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
+       "                         -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
+       "                         -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
+       "                          6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
+       "                        [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
+       "                          4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
+       "                          6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
+       "                          9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
+       "                        [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
+       "                         -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
+       "                          4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
+       "                          7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
+       "                        [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
+       "                          2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
+       "                         -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
+       "                         -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
+       "                        [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
+       "                          1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
+       "                          7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
+       "                          1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
+       "                        [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
+       "                          2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
+       "                         -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
+       "                         -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
+       "                        [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
+       "                          3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
+       "                         -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
+       "                         -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
+       "                        [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
+       "                          2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
+       "                          4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
+       "                          4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
+       "                        [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
+       "                          4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
+       "                          1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
+       "                          1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
+       "                        [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
+       "                          3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
+       "                         -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
+       "                          5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
+       "                        [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
+       "                          7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
+       "                          1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
+       "                         -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
+       "                        [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
+       "                         -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
+       "                         -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
+       "                          7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
+       "                        [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
+       "                         -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
+       "                         -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
+       "                         -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
+       "                        [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
+       "                          4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
+       "                         -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
+       "                          2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
+       "                        [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
+       "                          1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
+       "                          1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
+       "                         -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
+       "                        [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
+       "                         -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
+       "                         -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
+       "                          1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
+       "                \n",
+       "                       [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
+       "                         -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
+       "                         -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
+       "                         -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
+       "                        [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
+       "                          1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
+       "                          5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
+       "                         -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
+       "                        [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
+       "                         -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
+       "                         -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
+       "                         -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
+       "                        [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
+       "                         -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
+       "                         -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
+       "                         -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
+       "                        [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
+       "                         -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
+       "                         -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
+       "                          1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
+       "                        [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
+       "                          7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
+       "                         -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
+       "                         -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
+       "                        [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
+       "                         -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
+       "                         -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
+       "                          1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
+       "                        [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
+       "                         -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
+       "                          1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
+       "                          2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
+       "                        [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
+       "                          4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
+       "                         -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
+       "                          1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
+       "                        [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
+       "                         -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
+       "                          9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
+       "                         -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
+       "                        [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
+       "                          2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
+       "                         -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
+       "                          2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
+       "                        [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
+       "                          1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
+       "                          1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
+       "                          1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
+       "                        [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
+       "                         -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
+       "                         -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
+       "                          1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
+       "                        [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
+       "                          1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
+       "                         -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
+       "                          5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
+       "                        [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
+       "                          1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
+       "                         -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
+       "                         -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
+       "                        [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
+       "                         -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
+       "                         -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
+       "                         -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
+       "                         1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
+       "                         1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
+       "                         1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
+       "                         0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
+       "                         1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
+       "                         1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
+       "                         1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
+       "                         1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
+       "                         0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
+       "                         1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
+       "                         1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
+       "                         1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
+       "                         1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
+       "                         1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
+       "                         1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
+       "                         1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
+       "                         1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
+       "                         1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
+       "                         1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
+       "                         1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
+       "                         1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
+       "                         1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
+       "                         1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
+       "                         1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
+       "                         1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
+       "                         1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
+       "                         1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
+       "                         1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
+       "                         0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
+       "                         1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
+       "                         1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
+       "                         1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
+       "                         1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
+       "                         1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
+       "                         0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
+       "                         1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
+       "                         1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
+       "                         1.0334889 , 1.0734522 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
+       "                          0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
+       "                         -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
+       "                          0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
+       "                         -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
+       "                         -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
+       "                          0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
+       "                         -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
+       "                         -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
+       "                          0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
+       "                          0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
+       "                          0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
+       "                          0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
+       "                         -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
+       "                         -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
+       "                         -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
+       "                         -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
+       "                          0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
+       "                         -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
+       "                         -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
+       "                         -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
+       "                          0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
+       "                         -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
+       "                          0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
+       "                         -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
+       "                          0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
+       "                          0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
+       "                          0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
+       "                          0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
+       "                          0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
+       "                          0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
+       "                         -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
+       "                          0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
+       "                         -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
+       "                         -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
+       "                          0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
+       "                         -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
+       "                          0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
+       "                         -0.02164674,  0.01641086], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
+       "                          -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
+       "                         [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
+       "                          -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
+       "                         [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
+       "                          -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
+       "                         ...,\n",
+       "                         [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
+       "                          -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
+       "                         [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
+       "                          -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
+       "                         [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
+       "                          -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
+       "                          2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
+       "                         -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
+       "                          1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
+       "                          2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
+       "                          1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
+       "                          5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
+       "                          1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
+       "                          1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
+       "                          1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
+       "                          2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
+       "                          9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
+       "                          2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
+       "                         -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
+       "                         -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
+       "                          2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
+       "                          8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
+       "                         -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
+       "                          1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
+       "                          1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
+       "                         -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
+       "                         -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
+       "                          2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
+       "                          7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
+       "                          1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
+       "                         -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
+       "                          6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
+       "                          1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
+       "                          3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
+       "                         -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
+       "                         -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
+       "                         -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
+       "                          1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
+       "                         -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
+       "                         -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
+       "                          6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
+       "                          7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
+       "                          2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
+       "                          2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
+       "                          6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
+       "                          1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
+       "                         -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
+       "                          1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
+       "                          4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
+       "                         -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
+       "                          5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
+       "                          2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
+       "                          1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
+       "                         -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
+       "                         -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
+       "                          2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
+       "                          3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
+       "                         -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
+       "                          2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
+       "                          1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
+       "                          3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
+       "                          6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
+       "                         -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
+       "                          8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
+       "                          2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
+       "                          1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
+       "                          2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
+       "                          9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
+       "                          4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
+       "                          2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
+       "                         -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
+       "                         -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
+       "                         -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
+       "                          1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
+       "                          1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
+       "                         -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
+       "                         -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
+       "                          9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
+       "                         -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
+       "                         -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
+       "                          1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
+       "                          3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
+       "                         -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
+       "                         -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
+       "                          3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
+       "                          7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
+       "                          1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
+       "                          8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
+       "                          1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
+       "                         -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
+       "                         -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
+       "                          1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
+       "                          2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
+       "                          8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
+       "                          4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
+       "                          1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
+       "                          1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
+       "                         -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
+       "                         -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
+       "                          4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
+       "                          1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
+       "                          2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
+       "                          1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
+       "                         -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
+       "                         -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
+       "                         -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
+       "                          1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
+       "                         -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
+       "                          9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
+       "                          6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
+       "                         -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
+       "                          1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
+       "                          6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
+       "                          1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
+       "                         -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
+       "                          6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
+       "                         -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
+       "                          1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
+       "                         -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
+       "                          4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
+       "                         -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
+       "                          1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
+       "                          2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
+       "                          1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
+       "                          1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
+       "                          6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
+       "                         -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
+       "                          3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
+       "                         -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
+       "                          2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
+       "                         -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
+       "                          1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
+       "                          2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
+       "                         -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
+       "                          1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
+       "                          4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
+       "                          1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
+       "                          6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
+       "                          8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
+       "                          6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
+       "                         -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
+       "                          1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
+       "                          1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
+       "                         -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
+       "                         -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
+       "                          1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
+       "                          2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
+       "                         -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
+       "                         -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
+       "                          2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
+       "                          1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
+       "                          3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
+       "                         -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
+       "                          7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
+       "                          3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
+       "                          1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
+       "                          1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
+       "                          1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
+       "                          4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
+       "                         -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
+       "                          1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
+       "                          1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
+       "                         -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
+       "                         -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
+       "                          8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
+       "                          1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
+       "                          1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
+       "                         -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
+       "                          6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
+       "                         -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
+       "                          6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
+       "                         -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
+       "                         -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
+       "                         -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
+       "                          1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
+       "                          1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
+       "                          1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
+       "                          7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
+       "                          1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
+       "                         -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
+       "                         -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
+       "                          1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
+       "                         -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
+       "                          3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
+       "                         -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
+       "                          1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
+       "                          7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
+       "                         -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
+       "                         -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
+       "                          2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
+       "                         -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
+       "                          2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
+       "                          1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
+       "                         -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
+       "                          1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
+       "                         -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
+       "                          2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
+       "                          -0.00204962,  0.01233771],\n",
+       "                         [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
+       "                           0.01483128,  0.02967459],\n",
+       "                         [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
+       "                           0.01299867, -0.00927783],\n",
+       "                         ...,\n",
+       "                         [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
+       "                           0.00615161,  0.00803701],\n",
+       "                         [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
+       "                          -0.00725265, -0.00729213],\n",
+       "                         [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
+       "                          -0.01250057, -0.02561413]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
+       "                          1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
+       "                         -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
+       "                          1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
+       "                         -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
+       "                         -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
+       "                          5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
+       "                         -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
+       "                          8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
+       "                         -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
+       "                         -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
+       "                          2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
+       "                         -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
+       "                          7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
+       "                         -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
+       "                          7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
+       "                          8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
+       "                         -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
+       "                         -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
+       "                         -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
+       "                         -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
+       "                          2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
+       "                          1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
+       "                         -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
+       "                         -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
+       "                         -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
+       "                         -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
+       "                          7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
+       "                         -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
+       "                         -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
+       "                          5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
+       "                         -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
+       "                         -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
+       "                         -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
+       "                         -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
+       "                          6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
+       "                         -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
+       "                          1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
+       "                         -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
+       "                         -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
+       "                          7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
+       "                          1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
+       "                          9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
+       "                          2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
+       "                         -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
+       "                         -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
+       "                          5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
+       "                          1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
+       "                         1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
+       "                         1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
+       "                         0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
+       "                         1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
+       "                         1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
+       "                         0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
+       "                         1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
+       "                         1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
+       "                         0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
+       "                         1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
+       "                         0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
+       "                         1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
+       "                         1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
+       "                         1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
+       "                         1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
+       "                         1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
+       "                         1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
+       "                         1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
+       "                         1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
+       "                         1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
+       "                         1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
+       "                         1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
+       "                         1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
+       "                         0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
+       "                         1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
+       "                         0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
+       "                         1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
+       "                         0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
+       "                         0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
+       "                         1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
+       "                         1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
+       "                         0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
+       "                         1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
+       "                         1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
+       "                         0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
+       "                         1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
+       "                         1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
+       "                         1.0128983 , 1.0420789 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
+       "                         -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
+       "                          8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
+       "                          2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
+       "                         -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
+       "                         -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
+       "                         -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
+       "                         -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
+       "                         -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
+       "                          2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
+       "                          3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
+       "                          3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
+       "                          3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
+       "                         -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
+       "                         -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
+       "                          1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
+       "                         -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
+       "                         -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
+       "                         -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
+       "                         -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
+       "                         -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
+       "                          1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
+       "                          1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
+       "                         -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
+       "                         -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
+       "                         -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
+       "                          2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
+       "                         -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
+       "                         -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
+       "                         -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
+       "                          1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
+       "                          1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
+       "                         -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
+       "                         -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
+       "                         -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
+       "                          1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
+       "                         -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
+       "                         -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
+       "                         -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
+       "                          7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
+       "                         -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
+       "                          1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
+       "                          3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
+       "                          3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
+       "                         -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
+       "                         -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
+       "                         -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
+       "                          8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
+       "                          7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
+       "                        [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
+       "                          1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
+       "                        [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
+       "                         -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
+       "                        ...,\n",
+       "                        [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
+       "                          3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
+       "                        [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
+       "                          1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
+       "                        [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
+       "                          9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
+       "                \n",
+       "                       [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
+       "                         -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
+       "                        [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
+       "                         -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
+       "                        [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
+       "                          3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
+       "                        ...,\n",
+       "                        [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
+       "                          7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
+       "                        [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
+       "                         -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
+       "                        [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
+       "                         -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
+       "                \n",
+       "                       [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
+       "                         -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
+       "                        [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
+       "                         -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
+       "                        [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
+       "                          6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
+       "                        ...,\n",
+       "                        [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
+       "                         -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
+       "                        [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
+       "                         -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
+       "                        [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
+       "                         -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
+       "                         -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
+       "                        [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
+       "                         -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
+       "                        [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
+       "                         -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
+       "                        ...,\n",
+       "                        [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
+       "                          9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
+       "                        [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
+       "                         -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
+       "                        [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
+       "                         -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
+       "                \n",
+       "                       [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
+       "                          1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
+       "                        [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
+       "                         -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
+       "                        [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
+       "                         -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
+       "                        ...,\n",
+       "                        [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
+       "                         -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
+       "                        [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
+       "                         -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
+       "                        [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
+       "                          7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
+       "                \n",
+       "                       [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
+       "                         -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
+       "                        [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
+       "                         -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
+       "                        [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
+       "                          1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
+       "                        ...,\n",
+       "                        [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
+       "                          3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
+       "                        [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
+       "                          5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
+       "                        [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
+       "                          2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
+       "                      dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
+       "                         -0.10876201,  0.0518376 ],\n",
+       "                        [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
+       "                          0.01024422, -0.0047144 ],\n",
+       "                        [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
+       "                          0.01880827,  0.00846547],\n",
+       "                        ...,\n",
+       "                        [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
+       "                          0.04121248,  0.00622395],\n",
+       "                        [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
+       "                          0.00683424, -0.01068041],\n",
+       "                        [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
+       "                         -0.01545478,  0.00205119]],\n",
+       "                \n",
+       "                       [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
+       "                         -0.12276172, -0.00676864],\n",
+       "                        [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
+       "                          0.01007075,  0.03550502],\n",
+       "                        [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
+       "                          0.00668171,  0.04424441],\n",
+       "                        ...,\n",
+       "                        [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
+       "                         -0.02856454,  0.03050387],\n",
+       "                        [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
+       "                         -0.02215741,  0.01845626],\n",
+       "                        [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
+       "                          0.03298638,  0.01737015]],\n",
+       "                \n",
+       "                       [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
+       "                          0.00755295,  0.01676364],\n",
+       "                        [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
+       "                         -0.03828989, -0.06387301],\n",
+       "                        [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
+       "                          0.04120573, -0.04320288],\n",
+       "                        ...,\n",
+       "                        [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
+       "                          0.039828  ,  0.01575541],\n",
+       "                        [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
+       "                         -0.00391845, -0.0216135 ],\n",
+       "                        [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
+       "                         -0.05756253,  0.01769848]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
+       "                         -0.10177041, -0.03314629],\n",
+       "                        [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
+       "                          0.0264037 ,  0.00855082],\n",
+       "                        [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
+       "                         -0.08611775,  0.08852727],\n",
+       "                        ...,\n",
+       "                        [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
+       "                         -0.05256388,  0.00049124],\n",
+       "                        [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
+       "                         -0.010408  , -0.02198589],\n",
+       "                        [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
+       "                          0.00311856,  0.02825575]],\n",
+       "                \n",
+       "                       [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
+       "                          0.09931507,  0.01606977],\n",
+       "                        [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
+       "                         -0.00323939,  0.06076182],\n",
+       "                        [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
+       "                         -0.01210698, -0.05587041],\n",
+       "                        ...,\n",
+       "                        [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
+       "                         -0.00253815, -0.04528459],\n",
+       "                        [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
+       "                          0.01135639, -0.00226221],\n",
+       "                        [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
+       "                         -0.000718  , -0.0467924 ]],\n",
+       "                \n",
+       "                       [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
+       "                         -0.07196326,  0.02667288],\n",
+       "                        [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
+       "                          0.03794343, -0.01332447],\n",
+       "                        [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
+       "                          0.0457263 ,  0.05769112],\n",
+       "                        ...,\n",
+       "                        [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
+       "                          0.00275381,  0.01149508],\n",
+       "                        [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
+       "                          0.05586889, -0.01648431],\n",
+       "                        [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
+       "                         -0.06611379,  0.05732429]]], dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
+       "                          1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
+       "                        [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
+       "                          1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
+       "                        [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
+       "                         -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
+       "                        ...,\n",
+       "                        [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
+       "                          2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
+       "                        [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
+       "                          4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
+       "                        [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
+       "                         -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
+       "                \n",
+       "                       [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
+       "                         -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
+       "                        [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
+       "                         -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
+       "                        [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
+       "                         -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
+       "                        ...,\n",
+       "                        [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
+       "                          6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
+       "                        [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
+       "                         -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
+       "                        [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
+       "                         -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
+       "                \n",
+       "                       [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
+       "                         -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
+       "                        [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
+       "                          1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
+       "                        [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
+       "                         -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
+       "                        ...,\n",
+       "                        [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
+       "                          5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
+       "                        [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
+       "                          1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
+       "                        [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
+       "                          1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
+       "                          2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
+       "                        [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
+       "                          3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
+       "                        [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
+       "                          4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
+       "                        ...,\n",
+       "                        [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
+       "                          8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
+       "                        [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
+       "                          2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
+       "                        [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
+       "                          2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
+       "                \n",
+       "                       [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
+       "                         -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
+       "                        [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
+       "                          2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
+       "                        [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
+       "                          3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
+       "                        ...,\n",
+       "                        [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
+       "                          2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
+       "                        [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
+       "                          7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
+       "                        [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
+       "                          1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
+       "                \n",
+       "                       [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
+       "                          2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
+       "                        [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
+       "                          8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
+       "                        [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
+       "                          1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
+       "                         -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
+       "                        [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
+       "                         -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
+       "                        [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
+       "                          2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
+       "                         -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
+       "                        [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
+       "                         -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
+       "                        [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
+       "                          3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
+       "                        ...,\n",
+       "                        [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
+       "                          3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
+       "                        [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
+       "                          3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
+       "                        [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
+       "                          3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
+       "                \n",
+       "                       [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
+       "                          3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
+       "                        [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
+       "                          1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
+       "                        [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
+       "                         -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
+       "                        ...,\n",
+       "                        [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
+       "                         -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
+       "                        [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
+       "                          3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
+       "                        [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
+       "                          1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
+       "                \n",
+       "                       [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
+       "                         -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
+       "                        [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
+       "                          1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
+       "                        [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
+       "                         -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
+       "                        ...,\n",
+       "                        [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
+       "                         -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
+       "                        [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
+       "                          1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
+       "                        [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
+       "                          6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
+       "                          1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
+       "                        [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
+       "                          4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
+       "                        [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
+       "                         -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
+       "                        ...,\n",
+       "                        [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
+       "                          3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
+       "                        [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
+       "                          9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
+       "                        [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
+       "                          6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
+       "                \n",
+       "                       [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
+       "                         -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
+       "                        [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
+       "                          8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
+       "                        [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
+       "                          1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
+       "                        ...,\n",
+       "                        [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
+       "                         -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
+       "                        [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
+       "                         -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
+       "                        [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
+       "                          2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
+       "                \n",
+       "                       [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
+       "                         -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
+       "                        [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
+       "                          4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
+       "                        [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
+       "                         -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
+       "                        ...,\n",
+       "                        [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
+       "                         -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
+       "                        [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
+       "                          3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
+       "                        [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
+       "                          5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
+       "                          2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
+       "                        [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
+       "                          1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
+       "                        [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
+       "                         -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
+       "                        ...,\n",
+       "                        [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
+       "                          2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
+       "                        [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
+       "                          2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
+       "                        [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
+       "                          1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
+       "                \n",
+       "                       [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
+       "                          1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
+       "                        [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
+       "                          1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
+       "                        [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
+       "                         -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
+       "                        ...,\n",
+       "                        [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
+       "                          1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
+       "                        [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
+       "                          1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
+       "                        [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
+       "                          1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
+       "                \n",
+       "                       [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
+       "                          1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
+       "                        [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
+       "                          1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
+       "                        [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
+       "                         -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
+       "                        ...,\n",
+       "                        [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
+       "                          1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
+       "                        [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
+       "                          1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
+       "                        [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
+       "                          1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
+       "                          5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
+       "                        [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
+       "                          1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
+       "                        [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
+       "                          1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
+       "                        ...,\n",
+       "                        [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
+       "                          4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
+       "                        [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
+       "                         -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
+       "                        [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
+       "                          1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
+       "                \n",
+       "                       [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
+       "                         -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
+       "                        [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
+       "                          1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
+       "                        [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
+       "                         -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
+       "                        ...,\n",
+       "                        [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
+       "                         -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
+       "                        [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
+       "                         -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
+       "                        [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
+       "                          1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
+       "                \n",
+       "                       [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
+       "                          1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
+       "                        [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
+       "                          3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
+       "                        [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
+       "                         -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
+       "                        ...,\n",
+       "                        [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
+       "                          1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
+       "                        [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
+       "                          2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
+       "                        [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
+       "                          8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
+       "                        -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
+       "                        -0.08941454,  0.37458393],\n",
+       "                       [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
+       "                         0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
+       "                        -0.32297572,  0.3089489 ],\n",
+       "                       [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
+       "                        -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
+       "                        -0.31591862, -0.29939887],\n",
+       "                       [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
+       "                        -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
+       "                         0.2792229 ,  0.26833603],\n",
+       "                       [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
+       "                         0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
+       "                        -0.31171426, -0.25726327],\n",
+       "                       [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
+       "                         0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
+       "                         0.30099693,  0.2978344 ],\n",
+       "                       [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
+       "                         0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
+       "                         0.36704957, -0.07152183],\n",
+       "                       [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
+       "                         0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
+       "                        -0.24604012, -0.25978062],\n",
+       "                       [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
+       "                         0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
+       "                        -0.35605282, -0.34466416],\n",
+       "                       [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
+       "                         0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
+       "                        -0.36399728, -0.30652383],\n",
+       "                       [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
+       "                        -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
+       "                        -0.26509777,  0.27066582],\n",
+       "                       [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
+       "                        -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
+       "                         0.3016155 , -0.2862795 ],\n",
+       "                       [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
+       "                        -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
+       "                         0.31764168, -0.3219256 ],\n",
+       "                       [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
+       "                        -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
+       "                        -0.38232875, -0.37825328],\n",
+       "                       [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
+       "                        -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
+       "                        -0.35072395,  0.3597266 ],\n",
+       "                       [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
+       "                        -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
+       "                         0.2981984 , -0.3554742 ]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
+       "                        -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
+       "                        -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
+       "                         1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
+       "                       [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
+       "                        -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
+       "                         1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
+       "                         6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
+       "                       [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
+       "                         1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
+       "                         1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
+       "                        -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
+       "                       [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
+       "                        -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
+       "                        -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
+       "                        -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
+       "                       [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
+       "                        -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
+       "                         2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
+       "                        -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
+       "                       [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
+       "                         8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
+       "                         8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
+       "                         1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
+       "                       [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
+       "                        -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
+       "                         8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
+       "                        -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
+       "                       [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
+       "                         5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
+       "                        -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
+       "                         7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
+       "                       [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
+       "                         1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
+       "                         7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
+       "                         1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
+       "                       [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
+       "                        -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
+       "                         1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
+       "                         2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
+       "                       [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
+       "                        -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
+       "                        -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
+       "                         7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
+       "                       [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
+       "                        -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
+       "                        -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
+       "                        -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
+       "                       [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
+       "                         1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
+       "                        -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
+       "                         8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
+       "                       [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
+       "                         1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
+       "                        -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
+       "                         1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
+       "                       [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
+       "                        -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
+       "                         1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
+       "                         1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
+       "                       [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
+       "                         1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
+       "                        -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
+       "                         1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
+       "                          1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
+       "                         -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
+       "                         -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
+       "                        [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
+       "                          9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
+       "                          6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
+       "                         -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
+       "                        [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
+       "                         -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
+       "                          6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
+       "                          2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
+       "                        [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
+       "                         -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
+       "                         -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
+       "                         -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
+       "                        [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
+       "                          6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
+       "                          3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
+       "                          8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
+       "                        [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
+       "                          1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
+       "                         -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
+       "                          1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
+       "                        [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
+       "                         -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
+       "                         -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
+       "                          5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
+       "                        [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
+       "                          1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
+       "                         -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
+       "                          1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
+       "                        [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
+       "                          2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
+       "                         -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
+       "                          2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
+       "                        [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
+       "                          8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
+       "                          4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
+       "                          1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
+       "                        [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
+       "                          1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
+       "                          8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
+       "                          9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
+       "                        [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
+       "                          5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
+       "                         -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
+       "                          1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
+       "                        [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
+       "                          6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
+       "                          1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
+       "                         -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
+       "                        [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
+       "                          1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
+       "                         -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
+       "                          1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
+       "                        [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
+       "                          8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
+       "                          1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
+       "                          7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
+       "                        [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
+       "                         -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
+       "                         -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
+       "                         -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
+       "                \n",
+       "                       [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
+       "                          5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
+       "                         -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
+       "                         -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
+       "                        [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
+       "                          6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
+       "                         -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
+       "                         -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
+       "                        [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
+       "                         -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
+       "                         -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
+       "                         -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
+       "                        [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
+       "                         -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
+       "                          2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
+       "                         -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
+       "                        [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
+       "                         -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
+       "                          5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
+       "                          6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
+       "                        [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
+       "                         -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
+       "                         -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
+       "                          7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
+       "                        [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
+       "                          5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
+       "                          8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
+       "                          3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
+       "                        [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
+       "                          3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
+       "                          5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
+       "                         -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
+       "                        [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
+       "                         -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
+       "                          3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
+       "                         -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
+       "                        [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
+       "                          1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
+       "                          5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
+       "                          1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
+       "                        [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
+       "                          1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
+       "                         -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
+       "                         -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
+       "                        [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
+       "                          2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
+       "                          8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
+       "                         -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
+       "                        [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
+       "                          4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
+       "                         -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
+       "                         -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
+       "                        [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
+       "                         -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
+       "                          8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
+       "                         -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
+       "                        [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
+       "                         -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
+       "                         -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
+       "                         -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
+       "                        [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
+       "                         -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
+       "                         -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
+       "                         -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
+       "                         1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
+       "                         1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
+       "                         0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
+       "                         1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
+       "                         0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
+       "                         0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
+       "                         1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
+       "                         1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
+       "                         0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
+       "                         1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
+       "                         1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
+       "                         1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
+       "                         1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
+       "                         1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
+       "                         1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
+       "                         1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
+       "                         1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
+       "                         1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
+       "                         1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
+       "                         1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
+       "                         1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
+       "                         1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
+       "                         1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
+       "                         0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
+       "                         1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
+       "                         0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
+       "                         1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
+       "                         0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
+       "                         0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
+       "                         1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
+       "                         1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
+       "                         0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
+       "                         1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
+       "                         1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
+       "                         0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
+       "                         1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
+       "                         1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
+       "                         1.0037141 , 1.0396017 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
+       "                         -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
+       "                          1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
+       "                          2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
+       "                         -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
+       "                         -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
+       "                         -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
+       "                         -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
+       "                         -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
+       "                          3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
+       "                          3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
+       "                          3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
+       "                          2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
+       "                         -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
+       "                         -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
+       "                          1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
+       "                          2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
+       "                         -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
+       "                         -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
+       "                         -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
+       "                         -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
+       "                          1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
+       "                          1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
+       "                         -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
+       "                         -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
+       "                         -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
+       "                          2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
+       "                          2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
+       "                         -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
+       "                         -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
+       "                         -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
+       "                          2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
+       "                         -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
+       "                         -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
+       "                         -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
+       "                          1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
+       "                         -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
+       "                         -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
+       "                         -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
+       "                          7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
+       "                          5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
+       "                          2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
+       "                          3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
+       "                          4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
+       "                         -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
+       "                         -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
+       "                         -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
+       "                          1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
+       "                          -0.01548608,  0.01052339],\n",
+       "                         [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
+       "                          -0.00281928, -0.00167585],\n",
+       "                         [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
+       "                          -0.03134314, -0.02594296],\n",
+       "                         ...,\n",
+       "                         [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
+       "                           0.04625429, -0.03096718],\n",
+       "                         [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
+       "                          -0.01003346, -0.00525536],\n",
+       "                         [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
+       "                          -0.01304786, -0.035545  ]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
+       "                         -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
+       "                          5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
+       "                         -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
+       "                         -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
+       "                         -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
+       "                          9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
+       "                         -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
+       "                          4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
+       "                         -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
+       "                          1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
+       "                         -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
+       "                         -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
+       "                         -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
+       "                         -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
+       "                         -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
+       "                         -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
+       "                         -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
+       "                         -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
+       "                         -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
+       "                          1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
+       "                         -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
+       "                          6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
+       "                          1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
+       "                         -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
+       "                          4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
+       "                         -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
+       "                         -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
+       "                         -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
+       "                         -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
+       "                         -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
+       "                          2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
+       "                         -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
+       "                         -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
+       "                         -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
+       "                         -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
+       "                         -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
+       "                         -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
+       "                         -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
+       "                         -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
+       "                         -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
+       "                          1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
+       "                         -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
+       "                         -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
+       "                         -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
+       "                         -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
+       "                          3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
+       "                         -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
+       "                         -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
+       "                          1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
+       "                         -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
+       "                          1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
+       "                         -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
+       "                         -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
+       "                         -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
+       "                         -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
+       "                         -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
+       "                          5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
+       "                         -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
+       "                         -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
+       "                          1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
+       "                         -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
+       "                         -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
+       "                          5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
+       "                         -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
+       "                         -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
+       "                          1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
+       "                         -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
+       "                         -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
+       "                         -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
+       "                          4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
+       "                         -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
+       "                          6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
+       "                         -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
+       "                         -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
+       "                         -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
+       "                         -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
+       "                         -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
+       "                          2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
+       "                          1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
+       "                          1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
+       "                          2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
+       "                         -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
+       "                          1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
+       "                          1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
+       "                          1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
+       "                         -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
+       "                          3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
+       "                         -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
+       "                         -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
+       "                          3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
+       "                         -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
+       "                         -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
+       "                          7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
+       "                         -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
+       "                          9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
+       "                         -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
+       "                         -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
+       "                         -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
+       "                         -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
+       "                         -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
+       "                         -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
+       "                          1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
+       "                         -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
+       "                         -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
+       "                         -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
+       "                          1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
+       "                         -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
+       "                         -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
+       "                         -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
+       "                         -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
+       "                         -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
+       "                         -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
+       "                          1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
+       "                          7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
+       "                          9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
+       "                          1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
+       "                         -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
+       "                         -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
+       "                          6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
+       "                          1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
+       "                          8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
+       "                         -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
+       "                         -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
+       "                         -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
+       "                          1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
+       "                         -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
+       "                         -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
+       "                          1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
+       "                         -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
+       "                          2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
+       "                         -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
+       "                         -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
+       "                          5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
+       "                          9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
+       "                         -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
+       "                         -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
+       "                         -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
+       "                          1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
+       "                         -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
+       "                          2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
+       "                          2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
+       "                         -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
+       "                         -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
+       "                          9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
+       "                         -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
+       "                          2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
+       "                         -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
+       "                         -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
+       "                         -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
+       "                         -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
+       "                         -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
+       "                          4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
+       "                          1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
+       "                         -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
+       "                         -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
+       "                          5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
+       "                          2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
+       "                         -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
+       "                          9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
+       "                          1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
+       "                         -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
+       "                          5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
+       "                          1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
+       "                         -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
+       "                          6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
+       "                         -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
+       "                          2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
+       "                         -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
+       "                          5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
+       "                         -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
+       "                         -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
+       "                          1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
+       "                          8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
+       "                         -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
+       "                         -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
+       "                         -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
+       "                         -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
+       "                          9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
+       "                         -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
+       "                         -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
+       "                         -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
+       "                         -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
+       "                         -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
+       "                         -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
+       "                          3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
+       "                         -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
+       "                         -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
+       "                         -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
+       "                          1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
+       "                          5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
+       "                         -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
+       "                           0.02154048,  0.01009107],\n",
+       "                         [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
+       "                           0.02311078, -0.03246025],\n",
+       "                         [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
+       "                           0.00015564,  0.01200298],\n",
+       "                         ...,\n",
+       "                         [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
+       "                          -0.00044155, -0.00768675],\n",
+       "                         [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
+       "                           0.00462436,  0.00114423],\n",
+       "                         [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
+       "                           0.0192393 , -0.00191616]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
+       "                          0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
+       "                         -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
+       "                          0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
+       "                         -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
+       "                          0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
+       "                         -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
+       "                          0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
+       "                         -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
+       "                          0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
+       "                          0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
+       "                          0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
+       "                          0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
+       "                         -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
+       "                         -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
+       "                         -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
+       "                          0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
+       "                          0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
+       "                         -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
+       "                         -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
+       "                         -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
+       "                          0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
+       "                         -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
+       "                         -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
+       "                         -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
+       "                          0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
+       "                          0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
+       "                          0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
+       "                          0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
+       "                          0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
+       "                         -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
+       "                          0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
+       "                          0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
+       "                          0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
+       "                         -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
+       "                         -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
+       "                         -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
+       "                          0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
+       "                         -0.01684757, -0.00175023], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (2): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
+       "                         1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
+       "                         1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
+       "                         1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
+       "                         1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
+       "                         1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
+       "                         1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
+       "                         1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
+       "                         1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
+       "                         1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
+       "                         1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
+       "                         1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
+       "                         1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
+       "                         0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
+       "                         1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
+       "                         1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
+       "                         1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
+       "                         1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
+       "                         1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
+       "                         1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
+       "                         1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
+       "                         0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
+       "                         1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
+       "                         1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
+       "                         0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
+       "                         1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
+       "                         1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
+       "                         1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
+       "                         1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
+       "                         1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
+       "                         1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
+       "                         1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
+       "                         1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
+       "                         1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
+       "                         1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
+       "                         0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
+       "                         1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
+       "                         1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
+       "                         1.0048147 , 1.0276642 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
+       "                         -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
+       "                          3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
+       "                          6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
+       "                          6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
+       "                          7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
+       "                         -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
+       "                         -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
+       "                         -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
+       "                         -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
+       "                          1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
+       "                          9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
+       "                          3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
+       "                          9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
+       "                         -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
+       "                          1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
+       "                         -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
+       "                          5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
+       "                         -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
+       "                         -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
+       "                         -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
+       "                         -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
+       "                          8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
+       "                         -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
+       "                         -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
+       "                         -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
+       "                          1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
+       "                         -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
+       "                          8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
+       "                         -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
+       "                          3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
+       "                          2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
+       "                         -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
+       "                         -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
+       "                         -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
+       "                          2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
+       "                         -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
+       "                         -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
+       "                         -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
+       "                          9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
+       "                          7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
+       "                          6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
+       "                          1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
+       "                          9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
+       "                         -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
+       "                         -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
+       "                          2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
+       "                          1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
+       "                         -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
+       "                        [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
+       "                         -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
+       "                        [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
+       "                          1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
+       "                        ...,\n",
+       "                        [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
+       "                          2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
+       "                        [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
+       "                          9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
+       "                        [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
+       "                          1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
+       "                \n",
+       "                       [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
+       "                         -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
+       "                        [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
+       "                         -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
+       "                        [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
+       "                          3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
+       "                        ...,\n",
+       "                        [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
+       "                          3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
+       "                        [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
+       "                         -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
+       "                        [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
+       "                          1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
+       "                \n",
+       "                       [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
+       "                          8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
+       "                        [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
+       "                          3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
+       "                        [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
+       "                          5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
+       "                        ...,\n",
+       "                        [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
+       "                          8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
+       "                        [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
+       "                          1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
+       "                        [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
+       "                          2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
+       "                         -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
+       "                        [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
+       "                         -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
+       "                        [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
+       "                         -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
+       "                        ...,\n",
+       "                        [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
+       "                          3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
+       "                        [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
+       "                         -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
+       "                        [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
+       "                          1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
+       "                \n",
+       "                       [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
+       "                         -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
+       "                        [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
+       "                         -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
+       "                        [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
+       "                         -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
+       "                        ...,\n",
+       "                        [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
+       "                         -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
+       "                        [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
+       "                          1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
+       "                        [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
+       "                         -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
+       "                \n",
+       "                       [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
+       "                         -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
+       "                        [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
+       "                         -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
+       "                        [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
+       "                          7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
+       "                        ...,\n",
+       "                        [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
+       "                          8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
+       "                        [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
+       "                         -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
+       "                        [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
+       "                         -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
+       "                          0.00220658, -0.01070606],\n",
+       "                        [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
+       "                         -0.03522046,  0.00336731],\n",
+       "                        [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
+       "                         -0.02712567, -0.00692069],\n",
+       "                        ...,\n",
+       "                        [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
+       "                          0.00351168, -0.01507777],\n",
+       "                        [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
+       "                          0.01558526, -0.00548268],\n",
+       "                        [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
+       "                         -0.01862272,  0.00915155]],\n",
+       "                \n",
+       "                       [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
+       "                         -0.05951536, -0.01053701],\n",
+       "                        [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
+       "                          0.04455427, -0.03069338],\n",
+       "                        [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
+       "                          0.017482  ,  0.02697489],\n",
+       "                        ...,\n",
+       "                        [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
+       "                          0.04024338, -0.0384163 ],\n",
+       "                        [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
+       "                          0.00090393,  0.01484353],\n",
+       "                        [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
+       "                         -0.01938148, -0.00959876]],\n",
+       "                \n",
+       "                       [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
+       "                          0.01978015,  0.00669768],\n",
+       "                        [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
+       "                         -0.02788975,  0.04276541],\n",
+       "                        [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
+       "                         -0.0080095 , -0.04260714],\n",
+       "                        ...,\n",
+       "                        [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
+       "                          0.02074965, -0.03320842],\n",
+       "                        [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
+       "                          0.00745646, -0.01764916],\n",
+       "                        [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
+       "                          0.02713079, -0.02098218]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
+       "                          0.00773418,  0.0028765 ],\n",
+       "                        [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
+       "                          0.01953993, -0.00055485],\n",
+       "                        [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
+       "                          0.00128055, -0.01244337],\n",
+       "                        ...,\n",
+       "                        [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
+       "                         -0.03074895,  0.02474623],\n",
+       "                        [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
+       "                          0.01141954, -0.00754204],\n",
+       "                        [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
+       "                         -0.02091517,  0.02028517]],\n",
+       "                \n",
+       "                       [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
+       "                          0.00690144, -0.0624721 ],\n",
+       "                        [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
+       "                          0.00672527,  0.04417474],\n",
+       "                        [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
+       "                          0.01875504, -0.01086921],\n",
+       "                        ...,\n",
+       "                        [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
+       "                          0.02842108, -0.02001433],\n",
+       "                        [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
+       "                         -0.03791892,  0.05297501],\n",
+       "                        [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
+       "                         -0.0426075 ,  0.04186616]],\n",
+       "                \n",
+       "                       [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
+       "                         -0.05163334, -0.02703283],\n",
+       "                        [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
+       "                          0.03730771, -0.01465937],\n",
+       "                        [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
+       "                          0.00054794,  0.0272242 ],\n",
+       "                        ...,\n",
+       "                        [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
+       "                          0.0433554 , -0.05423561],\n",
+       "                        [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
+       "                          0.01977414, -0.02690084],\n",
+       "                        [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
+       "                          0.00156149, -0.00067797]]], dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
+       "                          0.0309326 , -0.01376203],\n",
+       "                        [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
+       "                         -0.00639856,  0.01343099],\n",
+       "                        [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
+       "                         -0.02740676,  0.00521749],\n",
+       "                        ...,\n",
+       "                        [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
+       "                         -0.02067197,  0.02215986],\n",
+       "                        [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
+       "                          0.01457549, -0.02071035],\n",
+       "                        [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
+       "                         -0.03342215, -0.00695839]],\n",
+       "                \n",
+       "                       [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
+       "                         -0.01388015, -0.05727502],\n",
+       "                        [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
+       "                          0.02744391, -0.00661899],\n",
+       "                        [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
+       "                          0.00024902,  0.00248078],\n",
+       "                        ...,\n",
+       "                        [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
+       "                         -0.03614037, -0.00738423],\n",
+       "                        [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
+       "                          0.01113886,  0.02501536],\n",
+       "                        [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
+       "                         -0.00661571, -0.03333431]],\n",
+       "                \n",
+       "                       [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
+       "                         -0.00927628,  0.00616596],\n",
+       "                        [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
+       "                          0.00871206, -0.05778804],\n",
+       "                        [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
+       "                          0.02836852, -0.04284712],\n",
+       "                        ...,\n",
+       "                        [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
+       "                         -0.01772935,  0.00616858],\n",
+       "                        [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
+       "                         -0.01613746, -0.03987672],\n",
+       "                        [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
+       "                          0.01645808, -0.03744602]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
+       "                          0.05795961, -0.02054776],\n",
+       "                        [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
+       "                          0.03733749,  0.00026225],\n",
+       "                        [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
+       "                         -0.00190235, -0.00399782],\n",
+       "                        ...,\n",
+       "                        [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
+       "                          0.03480022, -0.01587555],\n",
+       "                        [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
+       "                         -0.02998798, -0.03450729],\n",
+       "                        [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
+       "                          0.00860727,  0.02687717]],\n",
+       "                \n",
+       "                       [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
+       "                          0.04437737, -0.03391603],\n",
+       "                        [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
+       "                          0.03200765,  0.06134365],\n",
+       "                        [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
+       "                         -0.01228396,  0.01346244],\n",
+       "                        ...,\n",
+       "                        [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
+       "                          0.05700811,  0.00101427],\n",
+       "                        [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
+       "                          0.02314062,  0.01037679],\n",
+       "                        [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
+       "                          0.01851269, -0.00904128]],\n",
+       "                \n",
+       "                       [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
+       "                         -0.02365098,  0.01838909],\n",
+       "                        [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
+       "                          0.0036391 , -0.01013733],\n",
+       "                        [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
+       "                         -0.0331871 ,  0.01334788],\n",
+       "                        ...,\n",
+       "                        [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
+       "                         -0.02920299, -0.00677245],\n",
+       "                        [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
+       "                         -0.00327538,  0.00982734],\n",
+       "                        [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
+       "                          0.02140583, -0.05328723]]], dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
+       "                         -0.03472243,  0.01304346],\n",
+       "                        [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
+       "                          0.01706363,  0.0169379 ],\n",
+       "                        [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
+       "                         -0.03150146,  0.02959211],\n",
+       "                        ...,\n",
+       "                        [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
+       "                         -0.0315103 ,  0.04004923],\n",
+       "                        [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
+       "                          0.00454007,  0.01773539],\n",
+       "                        [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
+       "                         -0.00716398,  0.0511735 ]],\n",
+       "                \n",
+       "                       [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
+       "                         -0.01024133, -0.0456225 ],\n",
+       "                        [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
+       "                          0.02512117,  0.02159863],\n",
+       "                        [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
+       "                          0.02156329, -0.00495635],\n",
+       "                        ...,\n",
+       "                        [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
+       "                         -0.03669459, -0.01169418],\n",
+       "                        [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
+       "                          0.01682055,  0.00250151],\n",
+       "                        [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
+       "                         -0.02213018, -0.00444395]],\n",
+       "                \n",
+       "                       [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
+       "                         -0.04441076,  0.02999873],\n",
+       "                        [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
+       "                          0.00269448, -0.02619188],\n",
+       "                        [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
+       "                          0.05100081, -0.00196214],\n",
+       "                        ...,\n",
+       "                        [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
+       "                          0.00641817, -0.00452846],\n",
+       "                        [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
+       "                         -0.0210044 , -0.00747442],\n",
+       "                        [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
+       "                          0.02690425,  0.01807844]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
+       "                          0.00344581, -0.00462025],\n",
+       "                        [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
+       "                         -0.03860147, -0.0139975 ],\n",
+       "                        [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
+       "                          0.03558432, -0.01965741],\n",
+       "                        ...,\n",
+       "                        [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
+       "                          0.02486686, -0.02093521],\n",
+       "                        [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
+       "                         -0.00058519, -0.02835972],\n",
+       "                        [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
+       "                         -0.01785722, -0.04314538]],\n",
+       "                \n",
+       "                       [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
+       "                         -0.02838681, -0.0039719 ],\n",
+       "                        [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
+       "                          0.04732952, -0.02382375],\n",
+       "                        [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
+       "                         -0.00022519, -0.07195798],\n",
+       "                        ...,\n",
+       "                        [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
+       "                          0.04077799, -0.03013852],\n",
+       "                        [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
+       "                          0.01461129,  0.01385937],\n",
+       "                        [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
+       "                          0.03261755,  0.00980215]],\n",
+       "                \n",
+       "                       [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
+       "                          0.02765293, -0.03892074],\n",
+       "                        [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
+       "                         -0.01858809, -0.01930472],\n",
+       "                        [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
+       "                         -0.02284159, -0.00387958],\n",
+       "                        ...,\n",
+       "                        [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
+       "                         -0.02290132, -0.00165214],\n",
+       "                        [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
+       "                          0.00613669, -0.02693458],\n",
+       "                        [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
+       "                          0.01223021, -0.01266978]]], dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
+       "                         -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
+       "                        [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
+       "                          1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
+       "                        [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
+       "                         -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
+       "                        ...,\n",
+       "                        [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
+       "                         -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
+       "                        [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
+       "                          5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
+       "                        [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
+       "                         -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
+       "                \n",
+       "                       [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
+       "                         -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
+       "                        [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
+       "                          1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
+       "                        [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
+       "                         -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
+       "                        ...,\n",
+       "                        [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
+       "                          2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
+       "                        [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
+       "                          4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
+       "                        [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
+       "                         -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
+       "                \n",
+       "                       [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
+       "                         -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
+       "                        [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
+       "                          9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
+       "                        [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
+       "                         -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
+       "                        ...,\n",
+       "                        [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
+       "                         -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
+       "                        [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
+       "                          4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
+       "                        [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
+       "                         -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
+       "                         -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
+       "                        [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
+       "                         -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
+       "                        [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
+       "                         -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
+       "                          3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
+       "                        [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
+       "                         -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
+       "                        [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
+       "                         -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
+       "                \n",
+       "                       [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
+       "                         -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
+       "                        [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
+       "                         -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
+       "                        [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
+       "                         -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
+       "                        ...,\n",
+       "                        [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
+       "                         -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
+       "                        [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
+       "                          9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
+       "                        [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
+       "                         -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
+       "                \n",
+       "                       [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
+       "                          1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
+       "                        [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
+       "                          2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
+       "                        [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
+       "                         -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
+       "                        ...,\n",
+       "                        [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
+       "                         -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
+       "                        [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
+       "                          2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
+       "                        [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
+       "                          1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
+       "                        -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
+       "                         0.25756484, -0.24836208],\n",
+       "                       [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
+       "                        -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
+       "                        -0.24733196,  0.22796093],\n",
+       "                       [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
+       "                         0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
+       "                         0.23860171,  0.2544802 ],\n",
+       "                       [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
+       "                        -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
+       "                         0.23467393, -0.2685565 ],\n",
+       "                       [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
+       "                         0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
+       "                        -0.19225396, -0.22171909],\n",
+       "                       [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
+       "                         0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
+       "                         0.26866576, -0.2760028 ],\n",
+       "                       [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
+       "                        -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
+       "                        -0.18015033,  0.23062935],\n",
+       "                       [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
+       "                        -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
+       "                        -0.15671346,  0.17406578],\n",
+       "                       [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
+       "                         0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
+       "                        -0.31668597,  0.30160227],\n",
+       "                       [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
+       "                        -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
+       "                         0.25486085,  0.24394904],\n",
+       "                       [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
+       "                        -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
+       "                        -0.11399411, -0.11268682],\n",
+       "                       [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
+       "                        -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
+       "                        -0.20129874, -0.27945545],\n",
+       "                       [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
+       "                        -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
+       "                         0.2934034 ,  0.27473462],\n",
+       "                       [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
+       "                         0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
+       "                        -0.13622668,  0.14556718],\n",
+       "                       [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
+       "                        -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
+       "                        -0.13565728,  0.12855493],\n",
+       "                       [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
+       "                        -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
+       "                        -0.20797041,  0.21802594]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
+       "                         0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
+       "                        -0.05300143,  0.05010788],\n",
+       "                       [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
+       "                         0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
+       "                        -0.00520796,  0.01617681],\n",
+       "                       [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
+       "                        -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
+       "                        -0.00890318, -0.02950851],\n",
+       "                       [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
+       "                         0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
+       "                        -0.06212043,  0.10200542],\n",
+       "                       [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
+       "                         0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
+       "                        -0.05677698, -0.02087275],\n",
+       "                       [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
+       "                        -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
+       "                        -0.07872038,  0.08625405],\n",
+       "                       [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
+       "                         0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
+       "                        -0.048445  , -0.01480543],\n",
+       "                       [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
+       "                        -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
+       "                        -0.00965995,  0.03196143],\n",
+       "                       [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
+       "                        -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
+       "                         0.1498203 , -0.13828841],\n",
+       "                       [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
+       "                         0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
+       "                        -0.04235039, -0.03586181],\n",
+       "                       [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
+       "                         0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
+       "                        -0.02627585, -0.02604468],\n",
+       "                       [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
+       "                         0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
+       "                        -0.05779656,  0.01974249],\n",
+       "                       [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
+       "                         0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
+       "                        -0.05779454, -0.10485042],\n",
+       "                       [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
+       "                        -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
+       "                        -0.04531232,  0.04370135],\n",
+       "                       [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
+       "                        -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
+       "                        -0.03735423,  0.03250728],\n",
+       "                       [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
+       "                        -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
+       "                        -0.02965603,  0.01923521]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
+       "                         -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
+       "                         -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
+       "                         -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
+       "                        [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
+       "                         -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
+       "                          1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
+       "                         -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
+       "                        [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
+       "                          9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
+       "                          1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
+       "                         -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
+       "                        [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
+       "                          5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
+       "                          6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
+       "                          8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
+       "                        [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
+       "                          9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
+       "                          8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
+       "                          3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
+       "                        [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
+       "                         -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
+       "                         -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
+       "                         -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
+       "                        [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
+       "                         -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
+       "                          2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
+       "                          1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
+       "                        [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
+       "                         -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
+       "                          1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
+       "                          3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
+       "                        [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
+       "                          1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
+       "                          4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
+       "                          1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
+       "                        [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
+       "                          1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
+       "                         -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
+       "                          6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
+       "                        [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
+       "                         -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
+       "                         -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
+       "                          3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
+       "                        [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
+       "                         -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
+       "                          4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
+       "                         -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
+       "                        [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
+       "                          1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
+       "                         -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
+       "                         -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
+       "                        [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
+       "                         -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
+       "                          1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
+       "                         -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
+       "                        [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
+       "                          6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
+       "                         -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
+       "                         -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
+       "                        [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
+       "                          1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
+       "                          7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
+       "                         -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
+       "                \n",
+       "                       [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
+       "                          1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
+       "                         -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
+       "                          1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
+       "                        [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
+       "                         -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
+       "                         -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
+       "                         -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
+       "                        [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
+       "                         -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
+       "                          5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
+       "                         -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
+       "                        [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
+       "                          1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
+       "                          1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
+       "                         -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
+       "                        [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
+       "                         -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
+       "                          1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
+       "                          1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
+       "                        [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
+       "                         -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
+       "                          2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
+       "                         -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
+       "                        [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
+       "                         -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
+       "                          3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
+       "                          9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
+       "                        [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
+       "                          2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
+       "                         -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
+       "                         -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
+       "                        [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
+       "                          1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
+       "                          1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
+       "                         -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
+       "                        [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
+       "                          6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
+       "                         -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
+       "                         -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
+       "                        [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
+       "                          2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
+       "                          6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
+       "                         -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
+       "                        [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
+       "                          1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
+       "                          1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
+       "                          5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
+       "                        [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
+       "                          5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
+       "                          8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
+       "                         -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
+       "                        [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
+       "                          6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
+       "                          9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
+       "                          5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
+       "                        [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
+       "                         -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
+       "                         -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
+       "                         -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
+       "                        [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
+       "                          5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
+       "                         -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
+       "                          2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
+       "                         1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
+       "                         1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
+       "                         1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
+       "                         1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
+       "                         1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
+       "                         1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
+       "                         1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
+       "                         1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
+       "                         1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
+       "                         1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
+       "                         1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
+       "                         1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
+       "                         1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
+       "                         1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
+       "                         1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
+       "                         1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
+       "                         1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
+       "                         1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
+       "                         1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
+       "                         1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
+       "                         1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
+       "                         1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
+       "                         1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
+       "                         1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
+       "                         1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
+       "                         1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
+       "                         1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
+       "                         1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
+       "                         1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
+       "                         1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
+       "                         1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
+       "                         1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
+       "                         1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
+       "                         1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
+       "                         1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
+       "                         1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
+       "                         1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
+       "                         1.1591135 , 1.1882532 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
+       "                         -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
+       "                         -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
+       "                          0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
+       "                          0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
+       "                          0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
+       "                         -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
+       "                         -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
+       "                          0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
+       "                         -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
+       "                          0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
+       "                          0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
+       "                         -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
+       "                         -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
+       "                         -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
+       "                          0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
+       "                         -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
+       "                         -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
+       "                         -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
+       "                          0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
+       "                         -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
+       "                          0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
+       "                         -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
+       "                          0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
+       "                         -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
+       "                         -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
+       "                          0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
+       "                          0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
+       "                          0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
+       "                          0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
+       "                         -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
+       "                         -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
+       "                          0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
+       "                          0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
+       "                          0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
+       "                         -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
+       "                         -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
+       "                          0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
+       "                         -0.00908286,  0.01659943], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
+       "                           0.01224422, -0.00072175],\n",
+       "                         [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
+       "                           0.01419899, -0.0136291 ],\n",
+       "                         [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
+       "                          -0.0128223 ,  0.00386102],\n",
+       "                         ...,\n",
+       "                         [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
+       "                          -0.00466742, -0.02921941],\n",
+       "                         [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
+       "                          -0.00111932,  0.02714985],\n",
+       "                         [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
+       "                           0.01096694, -0.02088788]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
+       "                          9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
+       "                         -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
+       "                         -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
+       "                         -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
+       "                         -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
+       "                         -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
+       "                          2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
+       "                         -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
+       "                         -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
+       "                         -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
+       "                         -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
+       "                         -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
+       "                          2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
+       "                         -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
+       "                         -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
+       "                         -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
+       "                         -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
+       "                         -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
+       "                          1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
+       "                         -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
+       "                         -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
+       "                         -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
+       "                         -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
+       "                         -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
+       "                         -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
+       "                         -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
+       "                         -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
+       "                         -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
+       "                         -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
+       "                         -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
+       "                         -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
+       "                         -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
+       "                         -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
+       "                         -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
+       "                         -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
+       "                          1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
+       "                         -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
+       "                         -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
+       "                         -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
+       "                         -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
+       "                          2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
+       "                         -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
+       "                         -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
+       "                         -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
+       "                         -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
+       "                         -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
+       "                          4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
+       "                         -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
+       "                         -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
+       "                          1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
+       "                         -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
+       "                         -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
+       "                         -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
+       "                         -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
+       "                          2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
+       "                         -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
+       "                         -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
+       "                         -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
+       "                         -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
+       "                         -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
+       "                         -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
+       "                         -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
+       "                          1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
+       "                         -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
+       "                         -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
+       "                         -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
+       "                          1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
+       "                         -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
+       "                          5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
+       "                         -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
+       "                          1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
+       "                         -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
+       "                          5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
+       "                         -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
+       "                          4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
+       "                         -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
+       "                         -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
+       "                         -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
+       "                         -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
+       "                         -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
+       "                         -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
+       "                         -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
+       "                         -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
+       "                          6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
+       "                          7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
+       "                         -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
+       "                         -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
+       "                         -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
+       "                          1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
+       "                          7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
+       "                         -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
+       "                         -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
+       "                         -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
+       "                         -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
+       "                         -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
+       "                         -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
+       "                          9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
+       "                         -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
+       "                         -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
+       "                         -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
+       "                         -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
+       "                         -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
+       "                         -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
+       "                         -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
+       "                          2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
+       "                         -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
+       "                         -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
+       "                         -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
+       "                         -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
+       "                         -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
+       "                         -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
+       "                         -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
+       "                         -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
+       "                          1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
+       "                         -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
+       "                          1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
+       "                         -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
+       "                         -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
+       "                          5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
+       "                         -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
+       "                         -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
+       "                         -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
+       "                         -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
+       "                          1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
+       "                          6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
+       "                         -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
+       "                         -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
+       "                         -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
+       "                         -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
+       "                         -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
+       "                         -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
+       "                         -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
+       "                         -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
+       "                         -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
+       "                         -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
+       "                         -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
+       "                         -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
+       "                         -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
+       "                         -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
+       "                         -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
+       "                          1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
+       "                         -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
+       "                         -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
+       "                         -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
+       "                         -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
+       "                          2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
+       "                          2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
+       "                         -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
+       "                          1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
+       "                          2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
+       "                         -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
+       "                          7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
+       "                         -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
+       "                         -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
+       "                          3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
+       "                         -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
+       "                         -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
+       "                          1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
+       "                          8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
+       "                         -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
+       "                         -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
+       "                          3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
+       "                         -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
+       "                         -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
+       "                         -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
+       "                         -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
+       "                         -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
+       "                         -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
+       "                         -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
+       "                         -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
+       "                         -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
+       "                         -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
+       "                         -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
+       "                         -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
+       "                         -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
+       "                         -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
+       "                         -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
+       "                         -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
+       "                         -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
+       "                          1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
+       "                         -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
+       "                         -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
+       "                         -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
+       "                         -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
+       "                         -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
+       "                         -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
+       "                         -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
+       "                         -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
+       "                         -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
+       "                         -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
+       "                          7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
+       "                          -0.00371265,  0.03133386],\n",
+       "                         [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
+       "                           0.01188842, -0.0047044 ],\n",
+       "                         [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
+       "                           0.0055303 ,  0.00608071],\n",
+       "                         ...,\n",
+       "                         [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
+       "                          -0.00608842, -0.00880447],\n",
+       "                         [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
+       "                          -0.0024398 ,  0.01270658],\n",
+       "                         [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
+       "                           0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
+       "                          4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
+       "                         -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
+       "                          6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
+       "                         -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
+       "                          7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
+       "                          1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
+       "                          4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
+       "                         -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
+       "                         -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
+       "                          6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
+       "                          2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
+       "                          8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
+       "                          5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
+       "                         -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
+       "                         -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
+       "                          8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
+       "                         -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
+       "                         -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
+       "                          1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
+       "                          1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
+       "                         -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
+       "                          1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
+       "                         -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
+       "                         -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
+       "                         -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
+       "                         -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
+       "                         -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
+       "                          9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
+       "                          8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
+       "                         -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
+       "                         -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
+       "                         -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
+       "                         -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
+       "                          1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
+       "                         -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
+       "                         -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
+       "                          2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
+       "                          7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
+       "                          1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
+       "                          5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
+       "                         -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
+       "                          2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
+       "                          6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
+       "                         -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
+       "                         -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
+       "                          5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
+       "                          1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (dropout): Dropout(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (_kwargs): Dict(\n",
+       "            (name): 'transformer'\n",
+       "            (trainable): True\n",
+       "            (dtype): 'float32'\n",
+       "          )\n",
+       "          (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "          array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
+       "                   -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
+       "                    6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
+       "                   -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
+       "                    7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
+       "                   -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
+       "                   -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
+       "                   -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
+       "                   -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
+       "                    4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
+       "                    1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
+       "                   -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
+       "                    1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
+       "                    2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
+       "                   -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
+       "                   -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
+       "                   -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
+       "                   -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
+       "                    7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
+       "                   -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
+       "                   -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
+       "                   -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
+       "                    1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
+       "                   -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
+       "                   -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
+       "                    1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
+       "                   -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
+       "                   -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
+       "                   -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
+       "                   -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
+       "                   -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
+       "                   -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
+       "                   -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
+       "                    4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
+       "                   -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
+       "                    6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
+       "                   -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
+       "                   -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
+       "                    5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
+       "                   -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
+       "                   -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
+       "                    1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
+       "                    1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
+       "                    1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
+       "                    1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
+       "                   -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
+       "                    3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
+       "                    3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
+       "                    7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
+       "                   -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
+       "                   -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
+       "                    2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
+       "                    9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
+       "                    1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
+       "                   -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
+       "                    1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
+       "                    1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
+       "                   -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
+       "                   -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
+       "                   -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
+       "                    2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
+       "                   -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
+       "                    1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
+       "                    4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
+       "                dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (transformer_pre): PrepareTransformerInputs(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (transformer_post): LastHiddenState(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_masking_post): SequentialBlock(\n",
+       "          (layers): List(\n",
+       "            (0): TransformerOutputToRagged(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): TransformerInferenceHiddenState(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_masking_pre): SequentialBlock(\n",
+       "          (layers): List(\n",
+       "            (0): SequenceCausalLastInference(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): ExtractMaskFromTargets(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  ), SequentialBlock(\n",
+       "    (layers): List(\n",
+       "      (0): _Dense(\n",
+       "        (dense): Dense(\n",
+       "          448, activation=linear, use_bias=True\n",
+       "          (kernel): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/kernel:0' shape=(192, 448) dtype=float32, numpy=\n",
+       "          array([[-0.07455213,  0.08738312, -0.09132323, ..., -0.02972549,\n",
+       "                   0.00206033,  0.08987995],\n",
+       "                 [-0.1418723 ,  0.01722792,  0.03020085, ..., -0.08537607,\n",
+       "                   0.0528537 , -0.05985903],\n",
+       "                 [ 0.12507589, -0.12977485, -0.06706683, ...,  0.00457396,\n",
+       "                   0.07196002,  0.01268123],\n",
+       "                 ...,\n",
+       "                 [-0.00195695,  0.04857071, -0.06206015, ..., -0.00629914,\n",
+       "                  -0.08346017, -0.1287044 ],\n",
+       "                 [ 0.1128123 , -0.04531217,  0.08705742, ...,  0.03716769,\n",
+       "                   0.02515787,  0.018825  ],\n",
+       "                 [ 0.06322469,  0.08437516, -0.02691332, ...,  0.01932786,\n",
+       "                  -0.12162916,  0.093416  ]], dtype=float32)>\n",
+       "          (bias): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/bias:0' shape=(448,) dtype=float32, numpy=\n",
+       "          array([ 2.81504877e-02, -1.44335190e-02,  7.53238574e-02,  3.00887652e-04,\n",
+       "                 -4.56925854e-02,  5.75957075e-02,  3.64849344e-02,  6.72322437e-02,\n",
+       "                  1.42776454e-02,  8.10379311e-02,  7.14076310e-02,  6.54920563e-02,\n",
+       "                  3.74164097e-02,  1.98917389e-02, -4.83481660e-02, -1.00074466e-02,\n",
+       "                  3.73900980e-02, -8.09519216e-02,  4.84817736e-02,  1.61066670e-02,\n",
+       "                  1.44684138e-02, -2.18199790e-02,  4.94538881e-02,  1.79679096e-02,\n",
+       "                 -8.12651997e-04, -2.44654771e-02, -5.43974787e-02, -2.61204913e-02,\n",
+       "                 -7.38266343e-03, -7.60965198e-02,  3.54000367e-02, -4.18136492e-02,\n",
+       "                  3.79898772e-02, -3.03007346e-02,  8.16893298e-03,  2.76147742e-02,\n",
+       "                  1.79042313e-02,  3.28151546e-02, -1.86179411e-02, -7.63999373e-02,\n",
+       "                  1.83715262e-02, -5.15938997e-02,  3.33066992e-02, -4.72240299e-02,\n",
+       "                 -3.20874550e-03,  6.16678521e-02, -4.77884114e-02, -3.93300056e-02,\n",
+       "                 -1.31899863e-02,  7.59410323e-04, -5.72681576e-02, -9.87503603e-02,\n",
+       "                  4.51197736e-02, -9.50545445e-02, -1.95405688e-02,  2.83987969e-02,\n",
+       "                  1.13698682e-02,  4.45396639e-02, -2.78044064e-02,  6.31122962e-02,\n",
+       "                 -4.33192253e-02,  4.00839001e-02,  5.49467281e-03,  3.42128165e-02,\n",
+       "                  5.25591671e-02,  5.23718633e-02,  7.44423121e-02, -4.51364219e-02,\n",
+       "                  5.35758696e-02, -5.21030538e-02,  2.33111754e-02,  3.98062021e-02,\n",
+       "                  1.20931277e-02, -4.18836810e-02, -6.42815232e-02, -7.57243410e-02,\n",
+       "                  5.05668344e-03, -4.21471614e-03,  4.92137186e-02, -2.42954325e-02,\n",
+       "                 -5.17125875e-02, -3.30529623e-02, -2.23571272e-03,  4.99468632e-02,\n",
+       "                  1.68716945e-02, -2.66351961e-02,  5.78250876e-03,  3.81902605e-03,\n",
+       "                 -1.86531839e-03,  4.16462719e-02,  9.35514718e-02, -2.69782171e-03,\n",
+       "                  5.35458066e-02, -5.52286543e-02,  2.77625527e-02,  4.79908995e-02,\n",
+       "                  4.06310894e-02,  5.05130403e-02, -2.12739091e-02, -1.12941816e-01,\n",
+       "                  3.42403203e-02,  5.31319194e-02, -4.04034182e-02, -1.33715738e-02,\n",
+       "                 -6.03716597e-02, -1.27376020e-02,  6.97045550e-02,  3.82803269e-02,\n",
+       "                 -7.08445460e-02,  3.07148062e-02, -5.72059080e-02,  6.36915118e-02,\n",
+       "                  2.22203881e-02, -5.68518378e-02, -4.02556397e-02, -1.29877878e-02,\n",
+       "                  5.60183935e-02, -1.40941944e-02, -7.21269893e-03,  3.69947292e-02,\n",
+       "                 -2.33332161e-03, -2.00844463e-02,  3.79087925e-02,  2.35442892e-02,\n",
+       "                  4.98754382e-02,  3.65077965e-02,  5.73647320e-02,  2.58711316e-02,\n",
+       "                 -5.56078330e-02, -2.12874692e-02, -8.37986395e-02, -1.14348732e-01,\n",
+       "                 -6.78669810e-02, -3.57556753e-02,  1.28276750e-01, -3.55466194e-02,\n",
+       "                  2.15561315e-02,  1.37906556e-03,  5.15904129e-02,  8.29028264e-02,\n",
+       "                  9.20313001e-02, -3.30200940e-02,  1.07878260e-02, -7.14220852e-03,\n",
+       "                 -6.34240657e-02,  9.80120897e-02, -5.69730774e-02,  4.68370598e-03,\n",
+       "                  1.18519412e-02,  4.56332229e-02,  4.96787764e-03,  7.34674558e-02,\n",
+       "                 -9.58381221e-02, -4.71204445e-02,  3.07661314e-02, -5.07396758e-02,\n",
+       "                 -1.06472917e-01, -4.56791297e-02,  3.80240083e-02, -2.05161609e-03,\n",
+       "                 -1.54581284e-02,  2.56832987e-02, -2.02810708e-02, -5.18618040e-02,\n",
+       "                 -6.43723831e-02,  2.77332105e-02, -1.13049299e-01, -8.25305060e-02,\n",
+       "                  2.06295867e-03,  3.80844735e-02, -2.54678018e-02, -7.67340511e-03,\n",
+       "                 -5.74909523e-02,  1.03158038e-02, -5.88300675e-02,  5.72723001e-02,\n",
+       "                  3.75031941e-02,  6.12024851e-02, -8.10966790e-02, -7.40096644e-02,\n",
+       "                  3.44251581e-02,  3.30497278e-04,  5.53901084e-02, -4.65683751e-02,\n",
+       "                  1.63332280e-02,  3.78027409e-02, -1.68565027e-02,  9.12062009e-04,\n",
+       "                  4.45604138e-02, -4.31712791e-02, -3.37749273e-02, -3.64207774e-02,\n",
+       "                 -2.89519206e-02, -3.16274688e-02,  3.14507494e-03, -3.27558778e-02,\n",
+       "                  4.80295047e-02, -5.75459516e-03,  3.29576619e-02, -2.32726056e-02,\n",
+       "                 -4.43717279e-02, -9.45364535e-02,  1.47395516e-02, -3.32047492e-02,\n",
+       "                  5.22973463e-02, -3.33522595e-02, -1.08384183e-02,  2.27131750e-02,\n",
+       "                  6.46038279e-02, -6.03022845e-03,  1.69095900e-02, -4.70702462e-02,\n",
+       "                  4.40847315e-02, -7.00245723e-02, -3.66129214e-03, -4.39092964e-02,\n",
+       "                  4.16780040e-02,  3.74898803e-03,  8.82267579e-02, -6.26748055e-02,\n",
+       "                 -7.64379129e-02,  2.61908397e-02, -3.34191360e-02, -5.92365190e-02,\n",
+       "                 -6.26700446e-02,  8.21715966e-03, -5.94762228e-02, -3.49649764e-03,\n",
+       "                 -7.91054498e-03, -1.05116203e-01, -2.14781463e-02,  6.25034347e-02,\n",
+       "                  6.15232275e-04, -6.48260564e-02,  6.41944706e-02, -9.87281203e-02,\n",
+       "                  4.22392786e-02,  2.89099030e-02,  4.90633957e-02, -3.93835381e-02,\n",
+       "                  2.58098776e-03, -7.80234784e-02,  1.09283090e-01, -3.93152684e-02,\n",
+       "                 -2.41577644e-02, -4.23509404e-02,  5.13587259e-02, -2.08917893e-02,\n",
+       "                 -9.90049797e-04, -3.47129218e-02,  3.90933678e-02,  7.25999326e-02,\n",
+       "                  6.32548481e-02, -6.10543042e-02, -4.34314925e-03, -7.20030144e-02,\n",
+       "                  3.20613086e-02,  6.36913851e-02, -5.04832268e-02, -2.49274280e-02,\n",
+       "                 -4.01630476e-02, -1.02888472e-01,  7.77155161e-02, -2.35703234e-02,\n",
+       "                 -2.90265046e-02, -6.19896501e-02,  2.04921290e-02, -7.78229954e-03,\n",
+       "                  5.88550046e-02,  8.65513459e-02,  4.17349748e-02,  9.32703614e-02,\n",
+       "                 -9.08269882e-02,  7.46139809e-02,  4.26179431e-02, -7.85728619e-02,\n",
+       "                 -4.75439504e-02, -2.36839484e-02,  3.25777940e-02, -4.10465710e-02,\n",
+       "                 -7.24445358e-02,  1.95803270e-02, -6.25842586e-02,  3.84642743e-02,\n",
+       "                  9.73698422e-02, -3.94890178e-03, -6.34230822e-02,  6.54949322e-02,\n",
+       "                 -7.02639446e-02,  7.34698959e-03,  9.34855826e-03,  7.41588175e-02,\n",
+       "                 -4.41608801e-02, -9.66508090e-02,  4.46497202e-02,  1.46768112e-02,\n",
+       "                  2.40328051e-02,  9.56735201e-03, -3.16882804e-02, -8.25649053e-02,\n",
+       "                 -2.15418488e-02, -6.63369074e-02,  5.47350608e-02,  2.53856424e-02,\n",
+       "                  2.52143480e-03,  3.41758989e-02, -3.06833293e-02,  3.53016481e-02,\n",
+       "                  4.56132926e-03, -4.27958407e-02, -4.84563690e-03, -5.22852540e-02,\n",
+       "                  4.93012071e-02,  7.69221857e-02,  8.91810358e-02, -3.40652093e-02,\n",
+       "                  4.26637530e-02,  3.34802121e-02, -6.97589070e-02, -6.99364617e-02,\n",
+       "                  4.96848905e-03,  3.50300744e-02,  5.43780625e-02,  8.37500170e-02,\n",
+       "                 -3.51133458e-02,  6.53213263e-02,  4.08907887e-03,  2.05903780e-02,\n",
+       "                  3.07346564e-02,  1.12512643e-02, -3.35258245e-02,  2.00964883e-02,\n",
+       "                 -7.92130753e-02, -6.38761520e-02, -5.32166511e-02, -6.66197017e-02,\n",
+       "                 -6.02674410e-02, -1.45740258e-02,  1.74162947e-02, -1.00922715e-02,\n",
+       "                  1.64833497e-02,  5.37883444e-03,  2.98331734e-02,  2.39258930e-02,\n",
+       "                 -5.21781705e-02, -3.69406790e-02, -2.19336022e-02,  7.12144002e-02,\n",
+       "                 -1.79243684e-02, -3.97394225e-02, -1.21570602e-01,  9.55308676e-02,\n",
+       "                 -3.95454168e-02, -3.46877822e-03,  3.34495120e-02, -5.81799522e-02,\n",
+       "                 -2.86029372e-02, -5.65220527e-02,  6.55567972e-04,  1.18885962e-02,\n",
+       "                 -6.88158497e-02,  1.21420855e-02, -1.16546685e-02, -2.32225470e-02,\n",
+       "                  4.47147042e-02,  6.95649311e-02, -4.26835306e-02, -1.59330107e-02,\n",
+       "                 -2.79076137e-02,  3.72364931e-02,  9.00735706e-02,  2.86666732e-02,\n",
+       "                 -5.26046082e-02,  2.58283727e-02,  3.59461047e-02, -1.87338181e-02,\n",
+       "                  1.64362025e-02,  1.06756319e-03,  6.04878142e-02, -1.31062083e-02,\n",
+       "                 -7.03594089e-02,  4.74309884e-02,  5.08545339e-02,  3.11768968e-02,\n",
+       "                 -2.47639306e-02, -6.00228012e-02,  6.14431426e-02,  1.42489225e-02,\n",
+       "                  1.61257351e-03, -5.95050529e-02, -4.87988591e-02,  5.72246872e-02,\n",
+       "                  5.33988047e-03,  6.72396421e-02, -7.28468075e-02,  4.77694571e-02,\n",
+       "                  6.32697940e-02,  7.30263665e-02,  1.65096261e-02, -5.55839986e-02,\n",
+       "                 -1.79752782e-02,  6.11882024e-02, -1.52537134e-02,  5.44449463e-02,\n",
+       "                 -2.75510475e-02,  4.73566540e-02, -5.51235154e-02,  3.62135470e-02,\n",
+       "                  4.04872857e-02,  4.04216610e-02, -5.64646423e-02, -9.89621878e-02,\n",
+       "                  4.53976885e-04,  5.28844260e-03, -9.11633074e-02,  2.31906958e-02,\n",
+       "                  5.08855991e-02,  4.17667106e-02, -1.03460886e-02, -9.60661918e-02,\n",
+       "                  4.08463739e-02,  4.51107807e-02,  2.29300167e-02,  4.96448539e-02,\n",
+       "                 -5.79110347e-02,  4.71823243e-03,  2.64104735e-02, -5.66517711e-02,\n",
+       "                 -5.72334938e-02, -3.19476537e-02, -1.32638989e-02,  3.67012108e-04,\n",
+       "                  5.98505437e-02, -5.61106540e-02,  3.62262875e-02,  4.87550870e-02,\n",
+       "                  2.20525730e-02, -4.59078001e-03,  1.95620954e-02, -5.58165535e-02,\n",
+       "                 -5.32784907e-05, -4.48737666e-02,  3.11158206e-02, -1.24887027e-01,\n",
+       "                  1.50636323e-02,  6.38935119e-02,  6.11636676e-02,  6.91439142e-04],\n",
+       "                dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  ), CategoricalOutput(\n",
+       "    (to_call): EmbeddingTablePrediction(\n",
+       "      (table): EmbeddingTable(\n",
+       "        (features): Dict(\n",
+       "          (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
+       "        )\n",
+       "        (table): Embedding(\n",
+       "          (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
+       "          array([[-0.07078984,  0.02619123, -0.0765224 , ..., -0.00312191,\n",
+       "                  -0.05631081,  0.00704953],\n",
+       "                 [ 0.01045333,  0.00758395,  0.04146114, ...,  0.04109409,\n",
+       "                   0.03323384, -0.01482256],\n",
+       "                 [ 0.05135752,  0.00544662,  0.01021936, ...,  0.01505754,\n",
+       "                   0.04705757,  0.05248646],\n",
+       "                 ...,\n",
+       "                 [-0.01608207, -0.01954165, -0.07535209, ..., -0.04260258,\n",
+       "                  -0.01301942, -0.06323248],\n",
+       "                 [-0.06214527, -0.00186577, -0.0687324 , ..., -0.06297008,\n",
+       "                   0.01791379,  0.00888064],\n",
+       "                 [ 0.00934703, -0.02699249, -0.05696923, ..., -0.01498478,\n",
+       "                  -0.02875059, -0.01258981]], dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (output_layer_bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
+       "      array([-0.15439628,  0.03772116,  0.04522803, ..., -0.1648375 ,\n",
+       "             -0.1597082 , -0.15951891], dtype=float32)>\n",
+       "      (bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
+       "      array([-0.15439628,  0.03772116,  0.04522803, ..., -0.1648375 ,\n",
+       "             -0.1597082 , -0.15951891], dtype=float32)>\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  )))\n",
+       "  (context): ModelContext(\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  )\n",
+       "  (_prepare_features): PrepareFeatures(\n",
+       "    (prepare_lists): PrepareListFeatures()\n",
+       "  )\n",
+       "  (output_names): List(\n",
+       "    (0): 'sess_pid_seq/categorical_output'\n",
+       "  )\n",
+       "  (optimizer): Adam()\n",
+       "  (loss): Dict(\n",
+       "    (sess_pid_seq/categorical_output): CategoricalCrossEntropy()\n",
+       "  )\n",
+       "  (train_pre): SequencePredictNext(\n",
+       "    (_pre): SequentialBlock(\n",
+       "      (layers): List(\n",
+       "        (0): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "        (1): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "      )\n",
+       "      (prepare_lists): PrepareListFeatures()\n",
+       "    )\n",
+       "    (transformer): XLNetBlock(\n",
+       "      (transformer): TFXLNetMainLayer(\n",
+       "        (word_embedding): TFSharedEmbeddings(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (layer): List(\n",
+       "          (0): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
+       "                       1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
+       "                       1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
+       "                       0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
+       "                       0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
+       "                       1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
+       "                       0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
+       "                       1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
+       "                       1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
+       "                       0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
+       "                       1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
+       "                       0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
+       "                       1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
+       "                       1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
+       "                       0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
+       "                       1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
+       "                       1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
+       "                       0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
+       "                       1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
+       "                       1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
+       "                       0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
+       "                       1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
+       "                       1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
+       "                       1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
+       "                       1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
+       "                       1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
+       "                       1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
+       "                       1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
+       "                       1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
+       "                       0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
+       "                       1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
+       "                       1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
+       "                       0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
+       "                       1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
+       "                       1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
+       "                       0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
+       "                       1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
+       "                       1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
+       "                       1.0107577 , 1.0596876 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
+       "                        6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
+       "                       -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
+       "                        1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
+       "                       -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
+       "                       -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
+       "                        5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
+       "                       -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
+       "                        1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
+       "                       -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
+       "                       -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
+       "                        3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
+       "                        1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
+       "                       -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
+       "                        5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
+       "                        1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
+       "                       -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
+       "                       -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
+       "                       -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
+       "                       -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
+       "                       -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
+       "                        3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
+       "                        1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
+       "                       -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
+       "                       -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
+       "                       -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
+       "                       -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
+       "                        3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
+       "                        7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
+       "                       -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
+       "                        1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
+       "                       -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
+       "                       -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
+       "                       -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
+       "                       -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
+       "                        4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
+       "                       -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
+       "                        1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
+       "                       -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
+       "                       -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
+       "                       -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
+       "                       -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
+       "                        3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
+       "                        3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
+       "                       -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
+       "                       -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
+       "                       -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
+       "                        2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
+       "                       -0.12369698, -0.12235671],\n",
+       "                      [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
+       "                        0.02513896,  0.02814367],\n",
+       "                      [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
+       "                        0.13238919, -0.11256532],\n",
+       "                      ...,\n",
+       "                      [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
+       "                       -0.08214942, -0.12410881],\n",
+       "                      [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
+       "                        0.06023917,  0.07214421],\n",
+       "                      [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
+       "                       -0.06763364,  0.05550697]],\n",
+       "              \n",
+       "                     [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
+       "                        0.09601118,  0.09255827],\n",
+       "                      [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
+       "                        0.0475458 , -0.07742295],\n",
+       "                      [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
+       "                       -0.05903677,  0.03677876],\n",
+       "                      ...,\n",
+       "                      [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
+       "                        0.10452053,  0.12009949],\n",
+       "                      [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
+       "                       -0.10300028, -0.1044563 ],\n",
+       "                      [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
+       "                        0.06220397, -0.09111064]],\n",
+       "              \n",
+       "                     [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
+       "                       -0.02168103,  0.01568287],\n",
+       "                      [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
+       "                        0.03995887, -0.01548792],\n",
+       "                      [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
+       "                        0.08776175, -0.08319726],\n",
+       "                      ...,\n",
+       "                      [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
+       "                        0.07759988,  0.03240566],\n",
+       "                      [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
+       "                       -0.031378  , -0.02404469],\n",
+       "                      [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
+       "                       -0.02130386,  0.04530597]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
+       "                        0.15062724,  0.12837149],\n",
+       "                      [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
+       "                        0.04776929, -0.08523804],\n",
+       "                      [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
+       "                       -0.09076596,  0.08992289],\n",
+       "                      ...,\n",
+       "                      [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
+       "                        0.10044491,  0.12639156],\n",
+       "                      [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
+       "                       -0.05817353, -0.03657222],\n",
+       "                      [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
+       "                        0.04052235, -0.05048911]],\n",
+       "              \n",
+       "                     [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
+       "                       -0.0087873 ,  0.00054167],\n",
+       "                      [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
+       "                       -0.03617225,  0.04379632],\n",
+       "                      [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
+       "                        0.00649468,  0.00245123],\n",
+       "                      ...,\n",
+       "                      [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
+       "                       -0.01775305,  0.01014595],\n",
+       "                      [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
+       "                       -0.01851957,  0.00425063],\n",
+       "                      [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
+       "                        0.00027551,  0.04116082]],\n",
+       "              \n",
+       "                     [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
+       "                        0.11864589,  0.10221381],\n",
+       "                      [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
+       "                       -0.05264059,  0.00311177],\n",
+       "                      [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
+       "                       -0.04377652,  0.03546317],\n",
+       "                      ...,\n",
+       "                      [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
+       "                        0.02304599,  0.05762106],\n",
+       "                      [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
+       "                       -0.05019034, -0.04568675],\n",
+       "                      [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
+       "                        0.04290378, -0.0746149 ]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
+       "                       -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
+       "                      [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
+       "                        2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
+       "                      [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
+       "                        2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
+       "                       -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
+       "                      [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
+       "                        3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
+       "                      [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
+       "                       -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
+       "              \n",
+       "                     [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
+       "                       -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
+       "                      [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
+       "                       -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
+       "                      [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
+       "                        3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
+       "                      ...,\n",
+       "                      [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
+       "                        1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
+       "                      [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
+       "                       -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
+       "                      [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
+       "                       -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
+       "              \n",
+       "                     [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
+       "                       -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
+       "                      [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
+       "                        1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
+       "                      [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
+       "                        1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
+       "                      ...,\n",
+       "                      [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
+       "                       -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
+       "                      [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
+       "                        2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
+       "                      [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
+       "                       -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
+       "                       -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
+       "                      [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
+       "                        4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
+       "                      [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
+       "                        3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
+       "                        1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
+       "                      [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
+       "                       -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
+       "                      [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
+       "                        2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
+       "              \n",
+       "                     [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
+       "                        6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
+       "                      [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
+       "                       -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
+       "                      [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
+       "                       -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
+       "                       -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
+       "                      [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
+       "                        5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
+       "                      [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
+       "                        4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
+       "              \n",
+       "                     [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
+       "                       -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
+       "                      [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
+       "                       -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
+       "                      [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
+       "                        1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
+       "                      ...,\n",
+       "                      [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
+       "                        1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
+       "                      [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
+       "                       -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
+       "                      [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
+       "                       -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
+       "                        1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
+       "                      [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
+       "                       -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
+       "                      [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
+       "                       -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
+       "                       -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
+       "                      [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
+       "                       -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
+       "                      [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
+       "                        1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
+       "              \n",
+       "                     [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
+       "                       -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
+       "                      [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
+       "                        1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
+       "                      [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
+       "                       -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
+       "                      ...,\n",
+       "                      [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
+       "                        4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
+       "                      [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
+       "                       -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
+       "                      [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
+       "                       -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
+       "              \n",
+       "                     [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
+       "                       -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
+       "                      [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
+       "                        3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
+       "                      [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
+       "                        1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
+       "                      ...,\n",
+       "                      [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
+       "                        8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
+       "                      [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
+       "                        2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
+       "                      [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
+       "                        1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
+       "                        1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
+       "                      [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
+       "                       -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
+       "                      [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
+       "                       -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
+       "                      ...,\n",
+       "                      [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
+       "                        1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
+       "                      [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
+       "                        9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
+       "                      [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
+       "                        2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
+       "              \n",
+       "                     [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
+       "                       -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
+       "                      [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
+       "                       -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
+       "                      [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
+       "                       -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
+       "                       -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
+       "                      [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
+       "                        7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
+       "                      [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
+       "                        2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
+       "              \n",
+       "                     [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
+       "                       -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
+       "                      [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
+       "                        1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
+       "                      [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
+       "                        5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
+       "                        9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
+       "                      [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
+       "                       -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
+       "                      [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
+       "                        3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
+       "                        1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
+       "                      [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
+       "                        1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
+       "                      [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
+       "                        1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
+       "                      ...,\n",
+       "                      [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
+       "                        2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
+       "                      [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
+       "                       -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
+       "                      [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
+       "                        3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
+       "              \n",
+       "                     [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
+       "                       -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
+       "                      [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
+       "                        4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
+       "                      [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
+       "                       -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
+       "                      ...,\n",
+       "                      [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
+       "                        1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
+       "                      [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
+       "                       -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
+       "                      [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
+       "                       -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
+       "              \n",
+       "                     [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
+       "                       -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
+       "                      [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
+       "                        1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
+       "                      [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
+       "                        8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
+       "                      ...,\n",
+       "                      [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
+       "                        3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
+       "                      [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
+       "                        1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
+       "                      [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
+       "                        5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
+       "                       -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
+       "                      [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
+       "                        3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
+       "                      [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
+       "                        5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
+       "                      ...,\n",
+       "                      [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
+       "                       -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
+       "                      [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
+       "                        1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
+       "                      [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
+       "                        5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
+       "              \n",
+       "                     [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
+       "                        2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
+       "                      [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
+       "                       -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
+       "                      [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
+       "                       -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
+       "                      ...,\n",
+       "                      [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
+       "                       -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
+       "                      [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
+       "                        1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
+       "                      [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
+       "                        2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
+       "              \n",
+       "                     [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
+       "                       -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
+       "                      [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
+       "                       -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
+       "                      [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
+       "                        1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
+       "                      ...,\n",
+       "                      [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
+       "                        2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
+       "                      [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
+       "                       -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
+       "                      [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
+       "                       -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
+       "                       -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
+       "                      [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
+       "                        2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
+       "                      [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
+       "                        1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
+       "                      ...,\n",
+       "                      [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
+       "                       -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
+       "                      [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
+       "                       -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
+       "                      [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
+       "                       -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
+       "              \n",
+       "                     [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
+       "                       -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
+       "                      [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
+       "                        1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
+       "                      [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
+       "                        7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
+       "                      ...,\n",
+       "                      [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
+       "                       -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
+       "                      [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
+       "                       -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
+       "                      [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
+       "                       -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
+       "              \n",
+       "                     [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
+       "                       -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
+       "                      [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
+       "                        1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
+       "                      [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
+       "                        1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
+       "                      ...,\n",
+       "                      [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
+       "                       -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
+       "                      [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
+       "                       -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
+       "                      [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
+       "                       -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
+       "                       -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
+       "                      [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
+       "                        1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
+       "                      [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
+       "                        3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
+       "                      ...,\n",
+       "                      [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
+       "                       -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
+       "                      [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
+       "                       -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
+       "                      [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
+       "                        2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
+       "              \n",
+       "                     [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
+       "                        2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
+       "                      [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
+       "                       -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
+       "                      [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
+       "                       -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
+       "                        8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
+       "                      [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
+       "                        5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
+       "                      [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
+       "                        1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
+       "              \n",
+       "                     [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
+       "                       -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
+       "                      [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
+       "                       -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
+       "                      [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
+       "                       -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
+       "                      ...,\n",
+       "                      [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
+       "                       -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
+       "                      [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
+       "                       -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
+       "                      [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
+       "                       -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
+       "                       0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
+       "                       0.37070706,  0.35559788],\n",
+       "                     [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
+       "                       0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
+       "                       0.0776644 , -0.07216003],\n",
+       "                     [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
+       "                       0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
+       "                      -0.16261199,  0.16058037],\n",
+       "                     [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
+       "                      -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
+       "                      -0.20082442, -0.21696469],\n",
+       "                     [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
+       "                      -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
+       "                       0.24445428,  0.27668142],\n",
+       "                     [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
+       "                      -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
+       "                      -0.29824102, -0.31075856],\n",
+       "                     [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
+       "                      -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
+       "                      -0.38081092, -0.39247522],\n",
+       "                     [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
+       "                       0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
+       "                      -0.23054157, -0.22402786],\n",
+       "                     [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
+       "                       0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
+       "                       0.33728704, -0.35013184],\n",
+       "                     [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
+       "                      -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
+       "                       0.29340708,  0.2927634 ],\n",
+       "                     [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
+       "                       0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
+       "                      -0.35776407, -0.33932883],\n",
+       "                     [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
+       "                      -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
+       "                       0.3707558 , -0.3911879 ],\n",
+       "                     [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
+       "                      -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
+       "                       0.12306441,  0.10861646],\n",
+       "                     [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
+       "                       0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
+       "                       0.39667937,  0.38020003],\n",
+       "                     [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
+       "                      -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
+       "                      -0.29706052, -0.31455588],\n",
+       "                     [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
+       "                      -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
+       "                       0.10973554, -0.05313613]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
+       "                       0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
+       "                      -0.01393487, -0.01188555],\n",
+       "                     [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
+       "                       0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
+       "                      -0.00388369, -0.01727411],\n",
+       "                     [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
+       "                       0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
+       "                       0.12056144, -0.15448172],\n",
+       "                     [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
+       "                      -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
+       "                      -0.11767636, -0.10332035],\n",
+       "                     [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
+       "                      -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
+       "                       0.09375099,  0.09006778],\n",
+       "                     [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
+       "                      -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
+       "                      -0.07627007, -0.09407212],\n",
+       "                     [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
+       "                      -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
+       "                      -0.09510182, -0.07508499],\n",
+       "                     [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
+       "                       0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
+       "                      -0.11242524, -0.12828752],\n",
+       "                     [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
+       "                       0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
+       "                       0.1122688 , -0.0936246 ],\n",
+       "                     [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
+       "                      -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
+       "                       0.08842966,  0.07842822],\n",
+       "                     [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
+       "                       0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
+       "                      -0.11914786, -0.05327021],\n",
+       "                     [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
+       "                      -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
+       "                       0.12055498, -0.11824764],\n",
+       "                     [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
+       "                       0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
+       "                       0.11570179,  0.13300925],\n",
+       "                     [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
+       "                       0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
+       "                       0.14165434,  0.07234689],\n",
+       "                     [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
+       "                      -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
+       "                      -0.0326612 , -0.05191225],\n",
+       "                     [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
+       "                       0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
+       "                       0.03455094,  0.00630618]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
+       "                       -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
+       "                       -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
+       "                        6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
+       "                      [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
+       "                        4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
+       "                        6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
+       "                        9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
+       "                      [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
+       "                       -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
+       "                        4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
+       "                        7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
+       "                      [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
+       "                        2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
+       "                       -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
+       "                       -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
+       "                      [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
+       "                        1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
+       "                        7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
+       "                        1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
+       "                      [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
+       "                        2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
+       "                       -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
+       "                       -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
+       "                      [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
+       "                        3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
+       "                       -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
+       "                       -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
+       "                      [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
+       "                        2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
+       "                        4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
+       "                        4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
+       "                      [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
+       "                        4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
+       "                        1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
+       "                        1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
+       "                      [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
+       "                        3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
+       "                       -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
+       "                        5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
+       "                      [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
+       "                        7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
+       "                        1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
+       "                       -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
+       "                      [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
+       "                       -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
+       "                       -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
+       "                        7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
+       "                      [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
+       "                       -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
+       "                       -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
+       "                       -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
+       "                      [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
+       "                        4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
+       "                       -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
+       "                        2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
+       "                      [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
+       "                        1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
+       "                        1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
+       "                       -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
+       "                      [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
+       "                       -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
+       "                       -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
+       "                        1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
+       "              \n",
+       "                     [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
+       "                       -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
+       "                       -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
+       "                       -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
+       "                      [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
+       "                        1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
+       "                        5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
+       "                       -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
+       "                      [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
+       "                       -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
+       "                       -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
+       "                       -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
+       "                      [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
+       "                       -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
+       "                       -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
+       "                       -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
+       "                      [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
+       "                       -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
+       "                       -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
+       "                        1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
+       "                      [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
+       "                        7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
+       "                       -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
+       "                       -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
+       "                      [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
+       "                       -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
+       "                       -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
+       "                        1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
+       "                      [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
+       "                       -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
+       "                        1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
+       "                        2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
+       "                      [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
+       "                        4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
+       "                       -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
+       "                        1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
+       "                      [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
+       "                       -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
+       "                        9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
+       "                       -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
+       "                      [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
+       "                        2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
+       "                       -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
+       "                        2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
+       "                      [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
+       "                        1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
+       "                        1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
+       "                        1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
+       "                      [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
+       "                       -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
+       "                       -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
+       "                        1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
+       "                      [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
+       "                        1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
+       "                       -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
+       "                        5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
+       "                      [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
+       "                        1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
+       "                       -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
+       "                       -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
+       "                      [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
+       "                       -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
+       "                       -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
+       "                       -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
+       "                       1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
+       "                       1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
+       "                       1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
+       "                       0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
+       "                       1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
+       "                       1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
+       "                       1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
+       "                       1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
+       "                       0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
+       "                       1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
+       "                       1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
+       "                       1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
+       "                       1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
+       "                       1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
+       "                       1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
+       "                       1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
+       "                       1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
+       "                       1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
+       "                       1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
+       "                       1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
+       "                       1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
+       "                       1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
+       "                       1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
+       "                       1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
+       "                       1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
+       "                       1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
+       "                       1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
+       "                       1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
+       "                       0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
+       "                       1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
+       "                       1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
+       "                       1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
+       "                       1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
+       "                       1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
+       "                       0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
+       "                       1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
+       "                       1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
+       "                       1.0334889 , 1.0734522 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
+       "                        0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
+       "                       -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
+       "                        0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
+       "                       -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
+       "                       -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
+       "                        0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
+       "                       -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
+       "                       -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
+       "                        0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
+       "                        0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
+       "                        0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
+       "                        0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
+       "                       -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
+       "                       -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
+       "                       -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
+       "                       -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
+       "                        0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
+       "                       -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
+       "                       -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
+       "                       -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
+       "                        0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
+       "                       -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
+       "                        0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
+       "                       -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
+       "                        0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
+       "                        0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
+       "                        0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
+       "                        0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
+       "                        0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
+       "                        0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
+       "                       -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
+       "                        0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
+       "                       -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
+       "                       -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
+       "                        0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
+       "                       -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
+       "                        0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
+       "                       -0.02164674,  0.01641086], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
+       "                        -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
+       "                       [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
+       "                        -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
+       "                       [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
+       "                        -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
+       "                       ...,\n",
+       "                       [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
+       "                        -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
+       "                       [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
+       "                        -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
+       "                       [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
+       "                        -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
+       "                        2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
+       "                       -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
+       "                        1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
+       "                        2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
+       "                        1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
+       "                        5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
+       "                        1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
+       "                        1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
+       "                        1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
+       "                        2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
+       "                        9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
+       "                        2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
+       "                       -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
+       "                       -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
+       "                        2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
+       "                        8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
+       "                       -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
+       "                        1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
+       "                        1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
+       "                       -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
+       "                       -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
+       "                        2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
+       "                        7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
+       "                        1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
+       "                       -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
+       "                        6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
+       "                        1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
+       "                        3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
+       "                       -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
+       "                       -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
+       "                       -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
+       "                        1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
+       "                       -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
+       "                       -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
+       "                        6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
+       "                        7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
+       "                        2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
+       "                        2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
+       "                        6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
+       "                        1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
+       "                       -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
+       "                        1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
+       "                        4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
+       "                       -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
+       "                        5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
+       "                        2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
+       "                        1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
+       "                       -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
+       "                       -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
+       "                        2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
+       "                        3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
+       "                       -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
+       "                        2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
+       "                        1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
+       "                        3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
+       "                        6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
+       "                       -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
+       "                        8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
+       "                        2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
+       "                        1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
+       "                        2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
+       "                        9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
+       "                        4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
+       "                        2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
+       "                       -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
+       "                       -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
+       "                       -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
+       "                        1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
+       "                        1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
+       "                       -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
+       "                       -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
+       "                        9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
+       "                       -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
+       "                       -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
+       "                        1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
+       "                        3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
+       "                       -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
+       "                       -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
+       "                        3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
+       "                        7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
+       "                        1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
+       "                        8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
+       "                        1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
+       "                       -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
+       "                       -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
+       "                        1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
+       "                        2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
+       "                        8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
+       "                        4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
+       "                        1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
+       "                        1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
+       "                       -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
+       "                       -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
+       "                        4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
+       "                        1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
+       "                        2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
+       "                        1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
+       "                       -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
+       "                       -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
+       "                       -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
+       "                        1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
+       "                       -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
+       "                        9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
+       "                        6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
+       "                       -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
+       "                        1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
+       "                        6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
+       "                        1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
+       "                       -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
+       "                        6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
+       "                       -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
+       "                        1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
+       "                       -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
+       "                        4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
+       "                       -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
+       "                        1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
+       "                        2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
+       "                        1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
+       "                        1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
+       "                        6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
+       "                       -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
+       "                        3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
+       "                       -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
+       "                        2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
+       "                       -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
+       "                        1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
+       "                        2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
+       "                       -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
+       "                        1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
+       "                        4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
+       "                        1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
+       "                        6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
+       "                        8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
+       "                        6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
+       "                       -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
+       "                        1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
+       "                        1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
+       "                       -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
+       "                       -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
+       "                        1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
+       "                        2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
+       "                       -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
+       "                       -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
+       "                        2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
+       "                        1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
+       "                        3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
+       "                       -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
+       "                        7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
+       "                        3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
+       "                        1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
+       "                        1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
+       "                        1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
+       "                        4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
+       "                       -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
+       "                        1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
+       "                        1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
+       "                       -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
+       "                       -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
+       "                        8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
+       "                        1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
+       "                        1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
+       "                       -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
+       "                        6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
+       "                       -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
+       "                        6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
+       "                       -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
+       "                       -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
+       "                       -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
+       "                        1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
+       "                        1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
+       "                        1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
+       "                        7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
+       "                        1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
+       "                       -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
+       "                       -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
+       "                        1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
+       "                       -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
+       "                        3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
+       "                       -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
+       "                        1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
+       "                        7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
+       "                       -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
+       "                       -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
+       "                        2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
+       "                       -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
+       "                        2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
+       "                        1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
+       "                       -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
+       "                        1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
+       "                       -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
+       "                        2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
+       "                        -0.00204962,  0.01233771],\n",
+       "                       [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
+       "                         0.01483128,  0.02967459],\n",
+       "                       [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
+       "                         0.01299867, -0.00927783],\n",
+       "                       ...,\n",
+       "                       [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
+       "                         0.00615161,  0.00803701],\n",
+       "                       [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
+       "                        -0.00725265, -0.00729213],\n",
+       "                       [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
+       "                        -0.01250057, -0.02561413]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
+       "                        1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
+       "                       -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
+       "                        1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
+       "                       -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
+       "                       -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
+       "                        5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
+       "                       -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
+       "                        8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
+       "                       -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
+       "                       -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
+       "                        2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
+       "                       -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
+       "                        7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
+       "                       -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
+       "                        7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
+       "                        8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
+       "                       -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
+       "                       -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
+       "                       -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
+       "                       -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
+       "                        2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
+       "                        1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
+       "                       -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
+       "                       -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
+       "                       -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
+       "                       -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
+       "                        7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
+       "                       -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
+       "                       -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
+       "                        5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
+       "                       -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
+       "                       -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
+       "                       -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
+       "                       -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
+       "                        6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
+       "                       -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
+       "                        1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
+       "                       -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
+       "                       -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
+       "                        7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
+       "                        1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
+       "                        9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
+       "                        2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
+       "                       -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
+       "                       -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
+       "                        5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
+       "                        1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
+       "                       1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
+       "                       1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
+       "                       0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
+       "                       1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
+       "                       1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
+       "                       0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
+       "                       1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
+       "                       1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
+       "                       0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
+       "                       1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
+       "                       0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
+       "                       1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
+       "                       1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
+       "                       1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
+       "                       1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
+       "                       1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
+       "                       1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
+       "                       1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
+       "                       1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
+       "                       1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
+       "                       1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
+       "                       1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
+       "                       1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
+       "                       0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
+       "                       1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
+       "                       0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
+       "                       1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
+       "                       0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
+       "                       0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
+       "                       1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
+       "                       1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
+       "                       0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
+       "                       1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
+       "                       1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
+       "                       0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
+       "                       1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
+       "                       1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
+       "                       1.0128983 , 1.0420789 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
+       "                       -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
+       "                        8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
+       "                        2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
+       "                       -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
+       "                       -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
+       "                       -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
+       "                       -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
+       "                       -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
+       "                        2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
+       "                        3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
+       "                        3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
+       "                        3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
+       "                       -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
+       "                       -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
+       "                        1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
+       "                       -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
+       "                       -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
+       "                       -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
+       "                       -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
+       "                       -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
+       "                        1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
+       "                        1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
+       "                       -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
+       "                       -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
+       "                       -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
+       "                        2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
+       "                       -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
+       "                       -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
+       "                       -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
+       "                        1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
+       "                        1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
+       "                       -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
+       "                       -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
+       "                       -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
+       "                        1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
+       "                       -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
+       "                       -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
+       "                       -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
+       "                        7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
+       "                       -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
+       "                        1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
+       "                        3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
+       "                        3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
+       "                       -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
+       "                       -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
+       "                       -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
+       "                        8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
+       "                        7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
+       "                      [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
+       "                        1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
+       "                      [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
+       "                       -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
+       "                      ...,\n",
+       "                      [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
+       "                        3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
+       "                      [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
+       "                        1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
+       "                      [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
+       "                        9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
+       "              \n",
+       "                     [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
+       "                       -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
+       "                      [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
+       "                       -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
+       "                      [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
+       "                        3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
+       "                        7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
+       "                      [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
+       "                       -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
+       "                      [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
+       "                       -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
+       "              \n",
+       "                     [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
+       "                       -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
+       "                      [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
+       "                       -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
+       "                      [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
+       "                        6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
+       "                       -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
+       "                      [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
+       "                       -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
+       "                      [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
+       "                       -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
+       "                       -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
+       "                      [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
+       "                       -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
+       "                      [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
+       "                       -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
+       "                      ...,\n",
+       "                      [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
+       "                        9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
+       "                      [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
+       "                       -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
+       "                      [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
+       "                       -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
+       "              \n",
+       "                     [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
+       "                        1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
+       "                      [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
+       "                       -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
+       "                      [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
+       "                       -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
+       "                       -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
+       "                      [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
+       "                       -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
+       "                      [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
+       "                        7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
+       "              \n",
+       "                     [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
+       "                       -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
+       "                      [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
+       "                       -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
+       "                      [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
+       "                        1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
+       "                      ...,\n",
+       "                      [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
+       "                        3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
+       "                      [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
+       "                        5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
+       "                      [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
+       "                        2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
+       "                    dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
+       "                       -0.10876201,  0.0518376 ],\n",
+       "                      [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
+       "                        0.01024422, -0.0047144 ],\n",
+       "                      [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
+       "                        0.01880827,  0.00846547],\n",
+       "                      ...,\n",
+       "                      [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
+       "                        0.04121248,  0.00622395],\n",
+       "                      [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
+       "                        0.00683424, -0.01068041],\n",
+       "                      [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
+       "                       -0.01545478,  0.00205119]],\n",
+       "              \n",
+       "                     [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
+       "                       -0.12276172, -0.00676864],\n",
+       "                      [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
+       "                        0.01007075,  0.03550502],\n",
+       "                      [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
+       "                        0.00668171,  0.04424441],\n",
+       "                      ...,\n",
+       "                      [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
+       "                       -0.02856454,  0.03050387],\n",
+       "                      [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
+       "                       -0.02215741,  0.01845626],\n",
+       "                      [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
+       "                        0.03298638,  0.01737015]],\n",
+       "              \n",
+       "                     [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
+       "                        0.00755295,  0.01676364],\n",
+       "                      [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
+       "                       -0.03828989, -0.06387301],\n",
+       "                      [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
+       "                        0.04120573, -0.04320288],\n",
+       "                      ...,\n",
+       "                      [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
+       "                        0.039828  ,  0.01575541],\n",
+       "                      [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
+       "                       -0.00391845, -0.0216135 ],\n",
+       "                      [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
+       "                       -0.05756253,  0.01769848]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
+       "                       -0.10177041, -0.03314629],\n",
+       "                      [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
+       "                        0.0264037 ,  0.00855082],\n",
+       "                      [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
+       "                       -0.08611775,  0.08852727],\n",
+       "                      ...,\n",
+       "                      [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
+       "                       -0.05256388,  0.00049124],\n",
+       "                      [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
+       "                       -0.010408  , -0.02198589],\n",
+       "                      [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
+       "                        0.00311856,  0.02825575]],\n",
+       "              \n",
+       "                     [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
+       "                        0.09931507,  0.01606977],\n",
+       "                      [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
+       "                       -0.00323939,  0.06076182],\n",
+       "                      [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
+       "                       -0.01210698, -0.05587041],\n",
+       "                      ...,\n",
+       "                      [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
+       "                       -0.00253815, -0.04528459],\n",
+       "                      [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
+       "                        0.01135639, -0.00226221],\n",
+       "                      [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
+       "                       -0.000718  , -0.0467924 ]],\n",
+       "              \n",
+       "                     [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
+       "                       -0.07196326,  0.02667288],\n",
+       "                      [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
+       "                        0.03794343, -0.01332447],\n",
+       "                      [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
+       "                        0.0457263 ,  0.05769112],\n",
+       "                      ...,\n",
+       "                      [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
+       "                        0.00275381,  0.01149508],\n",
+       "                      [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
+       "                        0.05586889, -0.01648431],\n",
+       "                      [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
+       "                       -0.06611379,  0.05732429]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
+       "                        1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
+       "                      [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
+       "                        1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
+       "                      [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
+       "                       -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
+       "                        2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
+       "                      [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
+       "                        4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
+       "                      [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
+       "                       -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
+       "              \n",
+       "                     [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
+       "                       -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
+       "                      [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
+       "                       -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
+       "                      [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
+       "                       -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
+       "                      ...,\n",
+       "                      [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
+       "                        6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
+       "                      [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
+       "                       -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
+       "                      [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
+       "                       -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
+       "              \n",
+       "                     [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
+       "                       -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
+       "                      [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
+       "                        1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
+       "                      [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
+       "                       -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
+       "                      ...,\n",
+       "                      [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
+       "                        5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
+       "                      [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
+       "                        1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
+       "                      [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
+       "                        1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
+       "                        2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
+       "                      [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
+       "                        3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
+       "                      [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
+       "                        4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
+       "                      ...,\n",
+       "                      [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
+       "                        8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
+       "                      [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
+       "                        2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
+       "                      [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
+       "                        2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
+       "              \n",
+       "                     [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
+       "                       -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
+       "                      [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
+       "                        2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
+       "                      [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
+       "                        3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
+       "                      ...,\n",
+       "                      [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
+       "                        2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
+       "                      [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
+       "                        7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
+       "                      [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
+       "                        1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
+       "              \n",
+       "                     [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
+       "                        2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
+       "                      [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
+       "                        8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
+       "                      [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
+       "                        1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
+       "                       -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
+       "                      [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
+       "                       -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
+       "                      [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
+       "                        2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
+       "                       -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
+       "                      [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
+       "                       -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
+       "                      [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
+       "                        3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
+       "                      ...,\n",
+       "                      [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
+       "                        3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
+       "                      [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
+       "                        3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
+       "                      [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
+       "                        3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
+       "              \n",
+       "                     [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
+       "                        3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
+       "                      [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
+       "                        1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
+       "                      [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
+       "                       -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
+       "                      ...,\n",
+       "                      [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
+       "                       -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
+       "                      [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
+       "                        3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
+       "                      [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
+       "                        1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
+       "              \n",
+       "                     [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
+       "                       -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
+       "                      [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
+       "                        1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
+       "                      [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
+       "                       -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
+       "                      ...,\n",
+       "                      [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
+       "                       -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
+       "                      [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
+       "                        1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
+       "                      [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
+       "                        6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
+       "                        1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
+       "                      [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
+       "                        4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
+       "                      [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
+       "                       -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
+       "                      ...,\n",
+       "                      [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
+       "                        3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
+       "                      [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
+       "                        9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
+       "                      [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
+       "                        6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
+       "              \n",
+       "                     [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
+       "                       -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
+       "                      [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
+       "                        8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
+       "                      [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
+       "                        1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
+       "                      ...,\n",
+       "                      [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
+       "                       -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
+       "                      [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
+       "                       -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
+       "                      [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
+       "                        2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
+       "              \n",
+       "                     [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
+       "                       -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
+       "                      [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
+       "                        4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
+       "                      [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
+       "                       -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
+       "                      ...,\n",
+       "                      [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
+       "                       -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
+       "                      [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
+       "                        3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
+       "                      [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
+       "                        5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
+       "                        2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
+       "                      [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
+       "                        1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
+       "                      [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
+       "                       -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
+       "                      ...,\n",
+       "                      [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
+       "                        2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
+       "                      [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
+       "                        2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
+       "                      [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
+       "                        1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
+       "              \n",
+       "                     [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
+       "                        1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
+       "                      [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
+       "                        1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
+       "                      [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
+       "                       -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
+       "                      ...,\n",
+       "                      [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
+       "                        1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
+       "                      [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
+       "                        1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
+       "                      [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
+       "                        1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
+       "              \n",
+       "                     [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
+       "                        1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
+       "                      [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
+       "                        1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
+       "                      [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
+       "                       -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
+       "                      ...,\n",
+       "                      [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
+       "                        1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
+       "                      [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
+       "                        1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
+       "                      [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
+       "                        1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
+       "                        5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
+       "                      [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
+       "                        1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
+       "                      [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
+       "                        1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
+       "                      ...,\n",
+       "                      [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
+       "                        4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
+       "                      [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
+       "                       -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
+       "                      [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
+       "                        1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
+       "              \n",
+       "                     [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
+       "                       -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
+       "                      [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
+       "                        1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
+       "                      [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
+       "                       -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
+       "                      ...,\n",
+       "                      [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
+       "                       -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
+       "                      [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
+       "                       -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
+       "                      [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
+       "                        1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
+       "              \n",
+       "                     [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
+       "                        1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
+       "                      [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
+       "                        3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
+       "                      [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
+       "                       -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
+       "                      ...,\n",
+       "                      [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
+       "                        1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
+       "                      [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
+       "                        2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
+       "                      [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
+       "                        8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
+       "                      -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
+       "                      -0.08941454,  0.37458393],\n",
+       "                     [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
+       "                       0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
+       "                      -0.32297572,  0.3089489 ],\n",
+       "                     [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
+       "                      -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
+       "                      -0.31591862, -0.29939887],\n",
+       "                     [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
+       "                      -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
+       "                       0.2792229 ,  0.26833603],\n",
+       "                     [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
+       "                       0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
+       "                      -0.31171426, -0.25726327],\n",
+       "                     [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
+       "                       0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
+       "                       0.30099693,  0.2978344 ],\n",
+       "                     [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
+       "                       0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
+       "                       0.36704957, -0.07152183],\n",
+       "                     [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
+       "                       0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
+       "                      -0.24604012, -0.25978062],\n",
+       "                     [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
+       "                       0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
+       "                      -0.35605282, -0.34466416],\n",
+       "                     [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
+       "                       0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
+       "                      -0.36399728, -0.30652383],\n",
+       "                     [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
+       "                      -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
+       "                      -0.26509777,  0.27066582],\n",
+       "                     [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
+       "                      -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
+       "                       0.3016155 , -0.2862795 ],\n",
+       "                     [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
+       "                      -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
+       "                       0.31764168, -0.3219256 ],\n",
+       "                     [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
+       "                      -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
+       "                      -0.38232875, -0.37825328],\n",
+       "                     [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
+       "                      -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
+       "                      -0.35072395,  0.3597266 ],\n",
+       "                     [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
+       "                      -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
+       "                       0.2981984 , -0.3554742 ]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
+       "                      -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
+       "                      -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
+       "                       1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
+       "                     [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
+       "                      -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
+       "                       1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
+       "                       6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
+       "                     [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
+       "                       1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
+       "                       1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
+       "                      -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
+       "                     [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
+       "                      -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
+       "                      -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
+       "                      -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
+       "                     [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
+       "                      -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
+       "                       2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
+       "                      -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
+       "                     [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
+       "                       8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
+       "                       8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
+       "                       1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
+       "                     [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
+       "                      -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
+       "                       8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
+       "                      -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
+       "                     [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
+       "                       5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
+       "                      -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
+       "                       7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
+       "                     [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
+       "                       1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
+       "                       7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
+       "                       1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
+       "                     [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
+       "                      -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
+       "                       1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
+       "                       2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
+       "                     [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
+       "                      -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
+       "                      -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
+       "                       7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
+       "                     [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
+       "                      -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
+       "                      -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
+       "                      -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
+       "                     [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
+       "                       1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
+       "                      -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
+       "                       8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
+       "                     [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
+       "                       1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
+       "                      -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
+       "                       1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
+       "                     [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
+       "                      -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
+       "                       1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
+       "                       1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
+       "                     [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
+       "                       1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
+       "                      -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
+       "                       1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
+       "                        1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
+       "                       -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
+       "                       -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
+       "                      [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
+       "                        9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
+       "                        6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
+       "                       -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
+       "                      [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
+       "                       -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
+       "                        6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
+       "                        2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
+       "                      [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
+       "                       -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
+       "                       -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
+       "                       -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
+       "                      [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
+       "                        6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
+       "                        3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
+       "                        8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
+       "                      [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
+       "                        1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
+       "                       -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
+       "                        1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
+       "                      [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
+       "                       -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
+       "                       -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
+       "                        5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
+       "                      [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
+       "                        1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
+       "                       -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
+       "                        1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
+       "                      [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
+       "                        2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
+       "                       -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
+       "                        2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
+       "                      [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
+       "                        8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
+       "                        4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
+       "                        1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
+       "                      [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
+       "                        1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
+       "                        8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
+       "                        9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
+       "                      [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
+       "                        5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
+       "                       -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
+       "                        1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
+       "                      [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
+       "                        6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
+       "                        1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
+       "                       -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
+       "                      [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
+       "                        1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
+       "                       -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
+       "                        1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
+       "                      [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
+       "                        8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
+       "                        1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
+       "                        7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
+       "                      [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
+       "                       -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
+       "                       -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
+       "                       -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
+       "              \n",
+       "                     [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
+       "                        5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
+       "                       -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
+       "                       -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
+       "                      [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
+       "                        6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
+       "                       -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
+       "                       -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
+       "                      [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
+       "                       -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
+       "                       -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
+       "                       -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
+       "                      [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
+       "                       -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
+       "                        2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
+       "                       -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
+       "                      [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
+       "                       -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
+       "                        5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
+       "                        6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
+       "                      [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
+       "                       -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
+       "                       -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
+       "                        7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
+       "                      [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
+       "                        5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
+       "                        8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
+       "                        3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
+       "                      [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
+       "                        3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
+       "                        5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
+       "                       -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
+       "                      [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
+       "                       -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
+       "                        3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
+       "                       -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
+       "                      [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
+       "                        1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
+       "                        5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
+       "                        1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
+       "                      [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
+       "                        1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
+       "                       -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
+       "                       -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
+       "                      [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
+       "                        2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
+       "                        8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
+       "                       -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
+       "                      [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
+       "                        4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
+       "                       -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
+       "                       -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
+       "                      [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
+       "                       -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
+       "                        8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
+       "                       -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
+       "                      [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
+       "                       -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
+       "                       -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
+       "                       -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
+       "                      [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
+       "                       -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
+       "                       -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
+       "                       -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
+       "                       1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
+       "                       1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
+       "                       0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
+       "                       1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
+       "                       0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
+       "                       0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
+       "                       1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
+       "                       1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
+       "                       0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
+       "                       1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
+       "                       1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
+       "                       1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
+       "                       1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
+       "                       1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
+       "                       1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
+       "                       1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
+       "                       1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
+       "                       1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
+       "                       1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
+       "                       1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
+       "                       1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
+       "                       1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
+       "                       1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
+       "                       0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
+       "                       1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
+       "                       0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
+       "                       1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
+       "                       0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
+       "                       0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
+       "                       1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
+       "                       1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
+       "                       0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
+       "                       1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
+       "                       1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
+       "                       0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
+       "                       1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
+       "                       1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
+       "                       1.0037141 , 1.0396017 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
+       "                       -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
+       "                        1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
+       "                        2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
+       "                       -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
+       "                       -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
+       "                       -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
+       "                       -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
+       "                       -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
+       "                        3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
+       "                        3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
+       "                        3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
+       "                        2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
+       "                       -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
+       "                       -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
+       "                        1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
+       "                        2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
+       "                       -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
+       "                       -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
+       "                       -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
+       "                       -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
+       "                        1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
+       "                        1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
+       "                       -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
+       "                       -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
+       "                       -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
+       "                        2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
+       "                        2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
+       "                       -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
+       "                       -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
+       "                       -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
+       "                        2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
+       "                       -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
+       "                       -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
+       "                       -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
+       "                        1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
+       "                       -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
+       "                       -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
+       "                       -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
+       "                        7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
+       "                        5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
+       "                        2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
+       "                        3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
+       "                        4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
+       "                       -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
+       "                       -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
+       "                       -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
+       "                        1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
+       "                        -0.01548608,  0.01052339],\n",
+       "                       [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
+       "                        -0.00281928, -0.00167585],\n",
+       "                       [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
+       "                        -0.03134314, -0.02594296],\n",
+       "                       ...,\n",
+       "                       [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
+       "                         0.04625429, -0.03096718],\n",
+       "                       [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
+       "                        -0.01003346, -0.00525536],\n",
+       "                       [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
+       "                        -0.01304786, -0.035545  ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
+       "                       -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
+       "                        5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
+       "                       -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
+       "                       -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
+       "                       -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
+       "                        9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
+       "                       -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
+       "                        4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
+       "                       -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
+       "                        1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
+       "                       -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
+       "                       -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
+       "                       -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
+       "                       -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
+       "                       -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
+       "                       -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
+       "                       -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
+       "                       -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
+       "                       -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
+       "                        1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
+       "                       -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
+       "                        6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
+       "                        1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
+       "                       -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
+       "                        4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
+       "                       -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
+       "                       -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
+       "                       -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
+       "                       -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
+       "                       -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
+       "                        2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
+       "                       -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
+       "                       -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
+       "                       -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
+       "                       -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
+       "                       -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
+       "                       -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
+       "                       -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
+       "                       -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
+       "                       -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
+       "                        1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
+       "                       -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
+       "                       -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
+       "                       -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
+       "                       -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
+       "                        3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
+       "                       -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
+       "                       -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
+       "                        1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
+       "                       -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
+       "                        1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
+       "                       -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
+       "                       -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
+       "                       -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
+       "                       -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
+       "                       -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
+       "                        5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
+       "                       -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
+       "                       -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
+       "                        1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
+       "                       -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
+       "                       -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
+       "                        5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
+       "                       -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
+       "                       -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
+       "                        1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
+       "                       -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
+       "                       -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
+       "                       -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
+       "                        4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
+       "                       -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
+       "                        6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
+       "                       -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
+       "                       -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
+       "                       -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
+       "                       -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
+       "                       -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
+       "                        2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
+       "                        1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
+       "                        1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
+       "                        2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
+       "                       -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
+       "                        1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
+       "                        1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
+       "                        1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
+       "                       -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
+       "                        3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
+       "                       -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
+       "                       -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
+       "                        3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
+       "                       -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
+       "                       -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
+       "                        7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
+       "                       -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
+       "                        9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
+       "                       -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
+       "                       -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
+       "                       -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
+       "                       -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
+       "                       -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
+       "                       -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
+       "                        1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
+       "                       -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
+       "                       -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
+       "                       -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
+       "                        1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
+       "                       -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
+       "                       -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
+       "                       -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
+       "                       -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
+       "                       -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
+       "                       -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
+       "                        1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
+       "                        7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
+       "                        9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
+       "                        1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
+       "                       -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
+       "                       -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
+       "                        6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
+       "                        1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
+       "                        8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
+       "                       -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
+       "                       -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
+       "                       -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
+       "                        1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
+       "                       -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
+       "                       -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
+       "                        1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
+       "                       -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
+       "                        2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
+       "                       -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
+       "                       -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
+       "                        5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
+       "                        9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
+       "                       -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
+       "                       -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
+       "                       -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
+       "                        1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
+       "                       -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
+       "                        2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
+       "                        2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
+       "                       -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
+       "                       -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
+       "                        9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
+       "                       -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
+       "                        2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
+       "                       -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
+       "                       -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
+       "                       -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
+       "                       -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
+       "                       -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
+       "                        4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
+       "                        1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
+       "                       -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
+       "                       -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
+       "                        5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
+       "                        2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
+       "                       -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
+       "                        9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
+       "                        1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
+       "                       -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
+       "                        5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
+       "                        1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
+       "                       -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
+       "                        6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
+       "                       -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
+       "                        2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
+       "                       -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
+       "                        5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
+       "                       -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
+       "                       -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
+       "                        1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
+       "                        8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
+       "                       -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
+       "                       -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
+       "                       -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
+       "                       -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
+       "                        9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
+       "                       -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
+       "                       -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
+       "                       -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
+       "                       -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
+       "                       -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
+       "                       -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
+       "                        3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
+       "                       -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
+       "                       -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
+       "                       -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
+       "                        1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
+       "                        5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
+       "                       -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
+       "                         0.02154048,  0.01009107],\n",
+       "                       [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
+       "                         0.02311078, -0.03246025],\n",
+       "                       [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
+       "                         0.00015564,  0.01200298],\n",
+       "                       ...,\n",
+       "                       [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
+       "                        -0.00044155, -0.00768675],\n",
+       "                       [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
+       "                         0.00462436,  0.00114423],\n",
+       "                       [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
+       "                         0.0192393 , -0.00191616]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
+       "                        0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
+       "                       -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
+       "                        0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
+       "                       -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
+       "                        0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
+       "                       -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
+       "                        0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
+       "                       -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
+       "                        0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
+       "                        0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
+       "                        0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
+       "                        0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
+       "                       -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
+       "                       -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
+       "                       -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
+       "                        0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
+       "                        0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
+       "                       -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
+       "                       -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
+       "                       -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
+       "                        0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
+       "                       -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
+       "                       -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
+       "                       -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
+       "                        0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
+       "                        0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
+       "                        0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
+       "                        0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
+       "                        0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
+       "                       -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
+       "                        0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
+       "                        0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
+       "                        0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
+       "                       -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
+       "                       -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
+       "                       -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
+       "                        0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
+       "                       -0.01684757, -0.00175023], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (2): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
+       "                       1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
+       "                       1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
+       "                       1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
+       "                       1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
+       "                       1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
+       "                       1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
+       "                       1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
+       "                       1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
+       "                       1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
+       "                       1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
+       "                       1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
+       "                       1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
+       "                       0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
+       "                       1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
+       "                       1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
+       "                       1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
+       "                       1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
+       "                       1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
+       "                       1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
+       "                       1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
+       "                       0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
+       "                       1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
+       "                       1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
+       "                       0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
+       "                       1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
+       "                       1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
+       "                       1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
+       "                       1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
+       "                       1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
+       "                       1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
+       "                       1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
+       "                       1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
+       "                       1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
+       "                       1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
+       "                       0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
+       "                       1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
+       "                       1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
+       "                       1.0048147 , 1.0276642 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
+       "                       -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
+       "                        3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
+       "                        6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
+       "                        6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
+       "                        7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
+       "                       -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
+       "                       -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
+       "                       -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
+       "                       -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
+       "                        1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
+       "                        9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
+       "                        3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
+       "                        9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
+       "                       -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
+       "                        1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
+       "                       -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
+       "                        5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
+       "                       -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
+       "                       -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
+       "                       -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
+       "                       -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
+       "                        8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
+       "                       -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
+       "                       -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
+       "                       -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
+       "                        1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
+       "                       -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
+       "                        8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
+       "                       -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
+       "                        3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
+       "                        2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
+       "                       -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
+       "                       -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
+       "                       -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
+       "                        2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
+       "                       -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
+       "                       -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
+       "                       -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
+       "                        9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
+       "                        7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
+       "                        6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
+       "                        1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
+       "                        9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
+       "                       -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
+       "                       -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
+       "                        2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
+       "                        1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
+       "                       -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
+       "                      [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
+       "                       -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
+       "                      [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
+       "                        1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
+       "                        2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
+       "                      [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
+       "                        9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
+       "                      [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
+       "                        1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
+       "              \n",
+       "                     [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
+       "                       -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
+       "                      [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
+       "                       -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
+       "                      [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
+       "                        3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
+       "                        3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
+       "                      [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
+       "                       -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
+       "                      [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
+       "                        1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
+       "              \n",
+       "                     [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
+       "                        8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
+       "                      [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
+       "                        3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
+       "                      [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
+       "                        5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
+       "                        8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
+       "                      [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
+       "                        1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
+       "                      [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
+       "                        2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
+       "                       -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
+       "                      [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
+       "                       -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
+       "                      [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
+       "                       -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
+       "                        3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
+       "                      [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
+       "                       -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
+       "                      [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
+       "                        1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
+       "              \n",
+       "                     [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
+       "                       -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
+       "                      [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
+       "                       -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
+       "                      [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
+       "                       -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
+       "                      ...,\n",
+       "                      [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
+       "                       -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
+       "                      [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
+       "                        1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
+       "                      [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
+       "                       -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
+       "              \n",
+       "                     [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
+       "                       -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
+       "                      [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
+       "                       -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
+       "                      [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
+       "                        7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
+       "                        8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
+       "                      [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
+       "                       -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
+       "                      [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
+       "                       -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
+       "                        0.00220658, -0.01070606],\n",
+       "                      [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
+       "                       -0.03522046,  0.00336731],\n",
+       "                      [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
+       "                       -0.02712567, -0.00692069],\n",
+       "                      ...,\n",
+       "                      [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
+       "                        0.00351168, -0.01507777],\n",
+       "                      [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
+       "                        0.01558526, -0.00548268],\n",
+       "                      [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
+       "                       -0.01862272,  0.00915155]],\n",
+       "              \n",
+       "                     [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
+       "                       -0.05951536, -0.01053701],\n",
+       "                      [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
+       "                        0.04455427, -0.03069338],\n",
+       "                      [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
+       "                        0.017482  ,  0.02697489],\n",
+       "                      ...,\n",
+       "                      [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
+       "                        0.04024338, -0.0384163 ],\n",
+       "                      [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
+       "                        0.00090393,  0.01484353],\n",
+       "                      [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
+       "                       -0.01938148, -0.00959876]],\n",
+       "              \n",
+       "                     [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
+       "                        0.01978015,  0.00669768],\n",
+       "                      [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
+       "                       -0.02788975,  0.04276541],\n",
+       "                      [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
+       "                       -0.0080095 , -0.04260714],\n",
+       "                      ...,\n",
+       "                      [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
+       "                        0.02074965, -0.03320842],\n",
+       "                      [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
+       "                        0.00745646, -0.01764916],\n",
+       "                      [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
+       "                        0.02713079, -0.02098218]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
+       "                        0.00773418,  0.0028765 ],\n",
+       "                      [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
+       "                        0.01953993, -0.00055485],\n",
+       "                      [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
+       "                        0.00128055, -0.01244337],\n",
+       "                      ...,\n",
+       "                      [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
+       "                       -0.03074895,  0.02474623],\n",
+       "                      [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
+       "                        0.01141954, -0.00754204],\n",
+       "                      [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
+       "                       -0.02091517,  0.02028517]],\n",
+       "              \n",
+       "                     [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
+       "                        0.00690144, -0.0624721 ],\n",
+       "                      [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
+       "                        0.00672527,  0.04417474],\n",
+       "                      [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
+       "                        0.01875504, -0.01086921],\n",
+       "                      ...,\n",
+       "                      [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
+       "                        0.02842108, -0.02001433],\n",
+       "                      [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
+       "                       -0.03791892,  0.05297501],\n",
+       "                      [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
+       "                       -0.0426075 ,  0.04186616]],\n",
+       "              \n",
+       "                     [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
+       "                       -0.05163334, -0.02703283],\n",
+       "                      [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
+       "                        0.03730771, -0.01465937],\n",
+       "                      [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
+       "                        0.00054794,  0.0272242 ],\n",
+       "                      ...,\n",
+       "                      [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
+       "                        0.0433554 , -0.05423561],\n",
+       "                      [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
+       "                        0.01977414, -0.02690084],\n",
+       "                      [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
+       "                        0.00156149, -0.00067797]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
+       "                        0.0309326 , -0.01376203],\n",
+       "                      [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
+       "                       -0.00639856,  0.01343099],\n",
+       "                      [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
+       "                       -0.02740676,  0.00521749],\n",
+       "                      ...,\n",
+       "                      [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
+       "                       -0.02067197,  0.02215986],\n",
+       "                      [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
+       "                        0.01457549, -0.02071035],\n",
+       "                      [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
+       "                       -0.03342215, -0.00695839]],\n",
+       "              \n",
+       "                     [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
+       "                       -0.01388015, -0.05727502],\n",
+       "                      [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
+       "                        0.02744391, -0.00661899],\n",
+       "                      [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
+       "                        0.00024902,  0.00248078],\n",
+       "                      ...,\n",
+       "                      [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
+       "                       -0.03614037, -0.00738423],\n",
+       "                      [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
+       "                        0.01113886,  0.02501536],\n",
+       "                      [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
+       "                       -0.00661571, -0.03333431]],\n",
+       "              \n",
+       "                     [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
+       "                       -0.00927628,  0.00616596],\n",
+       "                      [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
+       "                        0.00871206, -0.05778804],\n",
+       "                      [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
+       "                        0.02836852, -0.04284712],\n",
+       "                      ...,\n",
+       "                      [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
+       "                       -0.01772935,  0.00616858],\n",
+       "                      [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
+       "                       -0.01613746, -0.03987672],\n",
+       "                      [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
+       "                        0.01645808, -0.03744602]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
+       "                        0.05795961, -0.02054776],\n",
+       "                      [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
+       "                        0.03733749,  0.00026225],\n",
+       "                      [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
+       "                       -0.00190235, -0.00399782],\n",
+       "                      ...,\n",
+       "                      [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
+       "                        0.03480022, -0.01587555],\n",
+       "                      [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
+       "                       -0.02998798, -0.03450729],\n",
+       "                      [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
+       "                        0.00860727,  0.02687717]],\n",
+       "              \n",
+       "                     [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
+       "                        0.04437737, -0.03391603],\n",
+       "                      [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
+       "                        0.03200765,  0.06134365],\n",
+       "                      [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
+       "                       -0.01228396,  0.01346244],\n",
+       "                      ...,\n",
+       "                      [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
+       "                        0.05700811,  0.00101427],\n",
+       "                      [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
+       "                        0.02314062,  0.01037679],\n",
+       "                      [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
+       "                        0.01851269, -0.00904128]],\n",
+       "              \n",
+       "                     [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
+       "                       -0.02365098,  0.01838909],\n",
+       "                      [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
+       "                        0.0036391 , -0.01013733],\n",
+       "                      [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
+       "                       -0.0331871 ,  0.01334788],\n",
+       "                      ...,\n",
+       "                      [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
+       "                       -0.02920299, -0.00677245],\n",
+       "                      [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
+       "                       -0.00327538,  0.00982734],\n",
+       "                      [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
+       "                        0.02140583, -0.05328723]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
+       "                       -0.03472243,  0.01304346],\n",
+       "                      [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
+       "                        0.01706363,  0.0169379 ],\n",
+       "                      [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
+       "                       -0.03150146,  0.02959211],\n",
+       "                      ...,\n",
+       "                      [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
+       "                       -0.0315103 ,  0.04004923],\n",
+       "                      [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
+       "                        0.00454007,  0.01773539],\n",
+       "                      [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
+       "                       -0.00716398,  0.0511735 ]],\n",
+       "              \n",
+       "                     [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
+       "                       -0.01024133, -0.0456225 ],\n",
+       "                      [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
+       "                        0.02512117,  0.02159863],\n",
+       "                      [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
+       "                        0.02156329, -0.00495635],\n",
+       "                      ...,\n",
+       "                      [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
+       "                       -0.03669459, -0.01169418],\n",
+       "                      [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
+       "                        0.01682055,  0.00250151],\n",
+       "                      [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
+       "                       -0.02213018, -0.00444395]],\n",
+       "              \n",
+       "                     [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
+       "                       -0.04441076,  0.02999873],\n",
+       "                      [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
+       "                        0.00269448, -0.02619188],\n",
+       "                      [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
+       "                        0.05100081, -0.00196214],\n",
+       "                      ...,\n",
+       "                      [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
+       "                        0.00641817, -0.00452846],\n",
+       "                      [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
+       "                       -0.0210044 , -0.00747442],\n",
+       "                      [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
+       "                        0.02690425,  0.01807844]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
+       "                        0.00344581, -0.00462025],\n",
+       "                      [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
+       "                       -0.03860147, -0.0139975 ],\n",
+       "                      [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
+       "                        0.03558432, -0.01965741],\n",
+       "                      ...,\n",
+       "                      [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
+       "                        0.02486686, -0.02093521],\n",
+       "                      [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
+       "                       -0.00058519, -0.02835972],\n",
+       "                      [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
+       "                       -0.01785722, -0.04314538]],\n",
+       "              \n",
+       "                     [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
+       "                       -0.02838681, -0.0039719 ],\n",
+       "                      [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
+       "                        0.04732952, -0.02382375],\n",
+       "                      [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
+       "                       -0.00022519, -0.07195798],\n",
+       "                      ...,\n",
+       "                      [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
+       "                        0.04077799, -0.03013852],\n",
+       "                      [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
+       "                        0.01461129,  0.01385937],\n",
+       "                      [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
+       "                        0.03261755,  0.00980215]],\n",
+       "              \n",
+       "                     [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
+       "                        0.02765293, -0.03892074],\n",
+       "                      [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
+       "                       -0.01858809, -0.01930472],\n",
+       "                      [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
+       "                       -0.02284159, -0.00387958],\n",
+       "                      ...,\n",
+       "                      [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
+       "                       -0.02290132, -0.00165214],\n",
+       "                      [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
+       "                        0.00613669, -0.02693458],\n",
+       "                      [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
+       "                        0.01223021, -0.01266978]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
+       "                       -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
+       "                      [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
+       "                        1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
+       "                      [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
+       "                       -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
+       "                      ...,\n",
+       "                      [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
+       "                       -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
+       "                      [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
+       "                        5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
+       "                      [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
+       "                       -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
+       "              \n",
+       "                     [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
+       "                       -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
+       "                      [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
+       "                        1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
+       "                      [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
+       "                       -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
+       "                      ...,\n",
+       "                      [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
+       "                        2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
+       "                      [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
+       "                        4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
+       "                      [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
+       "                       -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
+       "              \n",
+       "                     [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
+       "                       -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
+       "                      [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
+       "                        9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
+       "                      [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
+       "                       -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
+       "                      ...,\n",
+       "                      [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
+       "                       -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
+       "                      [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
+       "                        4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
+       "                      [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
+       "                       -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
+       "                       -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
+       "                      [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
+       "                       -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
+       "                      [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
+       "                       -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
+       "                        3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
+       "                      [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
+       "                       -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
+       "                      [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
+       "                       -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
+       "              \n",
+       "                     [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
+       "                       -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
+       "                      [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
+       "                       -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
+       "                      [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
+       "                       -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
+       "                      ...,\n",
+       "                      [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
+       "                       -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
+       "                      [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
+       "                        9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
+       "                      [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
+       "                       -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
+       "              \n",
+       "                     [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
+       "                        1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
+       "                      [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
+       "                        2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
+       "                      [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
+       "                       -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
+       "                       -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
+       "                      [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
+       "                        2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
+       "                      [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
+       "                        1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
+       "                      -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
+       "                       0.25756484, -0.24836208],\n",
+       "                     [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
+       "                      -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
+       "                      -0.24733196,  0.22796093],\n",
+       "                     [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
+       "                       0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
+       "                       0.23860171,  0.2544802 ],\n",
+       "                     [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
+       "                      -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
+       "                       0.23467393, -0.2685565 ],\n",
+       "                     [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
+       "                       0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
+       "                      -0.19225396, -0.22171909],\n",
+       "                     [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
+       "                       0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
+       "                       0.26866576, -0.2760028 ],\n",
+       "                     [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
+       "                      -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
+       "                      -0.18015033,  0.23062935],\n",
+       "                     [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
+       "                      -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
+       "                      -0.15671346,  0.17406578],\n",
+       "                     [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
+       "                       0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
+       "                      -0.31668597,  0.30160227],\n",
+       "                     [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
+       "                      -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
+       "                       0.25486085,  0.24394904],\n",
+       "                     [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
+       "                      -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
+       "                      -0.11399411, -0.11268682],\n",
+       "                     [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
+       "                      -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
+       "                      -0.20129874, -0.27945545],\n",
+       "                     [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
+       "                      -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
+       "                       0.2934034 ,  0.27473462],\n",
+       "                     [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
+       "                       0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
+       "                      -0.13622668,  0.14556718],\n",
+       "                     [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
+       "                      -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
+       "                      -0.13565728,  0.12855493],\n",
+       "                     [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
+       "                      -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
+       "                      -0.20797041,  0.21802594]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
+       "                       0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
+       "                      -0.05300143,  0.05010788],\n",
+       "                     [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
+       "                       0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
+       "                      -0.00520796,  0.01617681],\n",
+       "                     [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
+       "                      -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
+       "                      -0.00890318, -0.02950851],\n",
+       "                     [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
+       "                       0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
+       "                      -0.06212043,  0.10200542],\n",
+       "                     [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
+       "                       0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
+       "                      -0.05677698, -0.02087275],\n",
+       "                     [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
+       "                      -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
+       "                      -0.07872038,  0.08625405],\n",
+       "                     [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
+       "                       0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
+       "                      -0.048445  , -0.01480543],\n",
+       "                     [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
+       "                      -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
+       "                      -0.00965995,  0.03196143],\n",
+       "                     [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
+       "                      -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
+       "                       0.1498203 , -0.13828841],\n",
+       "                     [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
+       "                       0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
+       "                      -0.04235039, -0.03586181],\n",
+       "                     [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
+       "                       0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
+       "                      -0.02627585, -0.02604468],\n",
+       "                     [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
+       "                       0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
+       "                      -0.05779656,  0.01974249],\n",
+       "                     [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
+       "                       0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
+       "                      -0.05779454, -0.10485042],\n",
+       "                     [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
+       "                      -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
+       "                      -0.04531232,  0.04370135],\n",
+       "                     [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
+       "                      -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
+       "                      -0.03735423,  0.03250728],\n",
+       "                     [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
+       "                      -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
+       "                      -0.02965603,  0.01923521]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
+       "                       -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
+       "                       -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
+       "                       -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
+       "                      [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
+       "                       -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
+       "                        1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
+       "                       -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
+       "                      [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
+       "                        9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
+       "                        1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
+       "                       -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
+       "                      [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
+       "                        5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
+       "                        6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
+       "                        8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
+       "                      [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
+       "                        9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
+       "                        8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
+       "                        3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
+       "                      [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
+       "                       -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
+       "                       -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
+       "                       -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
+       "                      [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
+       "                       -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
+       "                        2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
+       "                        1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
+       "                      [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
+       "                       -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
+       "                        1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
+       "                        3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
+       "                      [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
+       "                        1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
+       "                        4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
+       "                        1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
+       "                      [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
+       "                        1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
+       "                       -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
+       "                        6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
+       "                      [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
+       "                       -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
+       "                       -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
+       "                        3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
+       "                      [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
+       "                       -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
+       "                        4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
+       "                       -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
+       "                      [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
+       "                        1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
+       "                       -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
+       "                       -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
+       "                      [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
+       "                       -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
+       "                        1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
+       "                       -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
+       "                      [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
+       "                        6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
+       "                       -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
+       "                       -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
+       "                      [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
+       "                        1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
+       "                        7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
+       "                       -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
+       "              \n",
+       "                     [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
+       "                        1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
+       "                       -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
+       "                        1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
+       "                      [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
+       "                       -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
+       "                       -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
+       "                       -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
+       "                      [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
+       "                       -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
+       "                        5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
+       "                       -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
+       "                      [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
+       "                        1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
+       "                        1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
+       "                       -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
+       "                      [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
+       "                       -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
+       "                        1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
+       "                        1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
+       "                      [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
+       "                       -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
+       "                        2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
+       "                       -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
+       "                      [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
+       "                       -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
+       "                        3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
+       "                        9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
+       "                      [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
+       "                        2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
+       "                       -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
+       "                       -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
+       "                      [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
+       "                        1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
+       "                        1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
+       "                       -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
+       "                      [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
+       "                        6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
+       "                       -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
+       "                       -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
+       "                      [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
+       "                        2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
+       "                        6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
+       "                       -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
+       "                      [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
+       "                        1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
+       "                        1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
+       "                        5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
+       "                      [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
+       "                        5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
+       "                        8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
+       "                       -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
+       "                      [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
+       "                        6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
+       "                        9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
+       "                        5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
+       "                      [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
+       "                       -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
+       "                       -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
+       "                       -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
+       "                      [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
+       "                        5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
+       "                       -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
+       "                        2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
+       "                       1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
+       "                       1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
+       "                       1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
+       "                       1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
+       "                       1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
+       "                       1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
+       "                       1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
+       "                       1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
+       "                       1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
+       "                       1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
+       "                       1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
+       "                       1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
+       "                       1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
+       "                       1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
+       "                       1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
+       "                       1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
+       "                       1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
+       "                       1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
+       "                       1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
+       "                       1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
+       "                       1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
+       "                       1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
+       "                       1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
+       "                       1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
+       "                       1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
+       "                       1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
+       "                       1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
+       "                       1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
+       "                       1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
+       "                       1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
+       "                       1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
+       "                       1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
+       "                       1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
+       "                       1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
+       "                       1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
+       "                       1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
+       "                       1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
+       "                       1.1591135 , 1.1882532 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
+       "                       -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
+       "                       -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
+       "                        0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
+       "                        0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
+       "                        0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
+       "                       -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
+       "                       -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
+       "                        0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
+       "                       -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
+       "                        0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
+       "                        0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
+       "                       -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
+       "                       -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
+       "                       -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
+       "                        0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
+       "                       -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
+       "                       -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
+       "                       -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
+       "                        0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
+       "                       -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
+       "                        0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
+       "                       -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
+       "                        0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
+       "                       -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
+       "                       -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
+       "                        0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
+       "                        0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
+       "                        0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
+       "                        0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
+       "                       -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
+       "                       -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
+       "                        0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
+       "                        0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
+       "                        0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
+       "                       -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
+       "                       -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
+       "                        0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
+       "                       -0.00908286,  0.01659943], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
+       "                         0.01224422, -0.00072175],\n",
+       "                       [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
+       "                         0.01419899, -0.0136291 ],\n",
+       "                       [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
+       "                        -0.0128223 ,  0.00386102],\n",
+       "                       ...,\n",
+       "                       [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
+       "                        -0.00466742, -0.02921941],\n",
+       "                       [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
+       "                        -0.00111932,  0.02714985],\n",
+       "                       [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
+       "                         0.01096694, -0.02088788]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
+       "                        9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
+       "                       -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
+       "                       -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
+       "                       -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
+       "                       -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
+       "                       -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
+       "                        2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
+       "                       -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
+       "                       -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
+       "                       -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
+       "                       -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
+       "                       -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
+       "                        2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
+       "                       -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
+       "                       -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
+       "                       -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
+       "                       -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
+       "                       -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
+       "                        1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
+       "                       -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
+       "                       -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
+       "                       -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
+       "                       -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
+       "                       -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
+       "                       -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
+       "                       -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
+       "                       -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
+       "                       -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
+       "                       -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
+       "                       -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
+       "                       -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
+       "                       -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
+       "                       -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
+       "                       -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
+       "                       -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
+       "                        1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
+       "                       -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
+       "                       -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
+       "                       -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
+       "                       -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
+       "                        2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
+       "                       -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
+       "                       -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
+       "                       -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
+       "                       -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
+       "                       -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
+       "                        4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
+       "                       -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
+       "                       -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
+       "                        1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
+       "                       -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
+       "                       -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
+       "                       -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
+       "                       -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
+       "                        2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
+       "                       -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
+       "                       -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
+       "                       -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
+       "                       -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
+       "                       -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
+       "                       -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
+       "                       -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
+       "                        1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
+       "                       -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
+       "                       -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
+       "                       -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
+       "                        1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
+       "                       -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
+       "                        5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
+       "                       -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
+       "                        1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
+       "                       -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
+       "                        5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
+       "                       -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
+       "                        4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
+       "                       -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
+       "                       -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
+       "                       -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
+       "                       -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
+       "                       -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
+       "                       -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
+       "                       -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
+       "                       -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
+       "                        6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
+       "                        7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
+       "                       -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
+       "                       -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
+       "                       -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
+       "                        1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
+       "                        7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
+       "                       -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
+       "                       -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
+       "                       -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
+       "                       -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
+       "                       -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
+       "                       -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
+       "                        9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
+       "                       -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
+       "                       -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
+       "                       -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
+       "                       -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
+       "                       -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
+       "                       -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
+       "                       -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
+       "                        2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
+       "                       -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
+       "                       -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
+       "                       -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
+       "                       -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
+       "                       -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
+       "                       -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
+       "                       -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
+       "                       -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
+       "                        1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
+       "                       -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
+       "                        1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
+       "                       -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
+       "                       -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
+       "                        5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
+       "                       -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
+       "                       -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
+       "                       -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
+       "                       -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
+       "                        1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
+       "                        6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
+       "                       -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
+       "                       -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
+       "                       -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
+       "                       -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
+       "                       -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
+       "                       -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
+       "                       -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
+       "                       -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
+       "                       -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
+       "                       -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
+       "                       -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
+       "                       -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
+       "                       -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
+       "                       -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
+       "                       -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
+       "                        1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
+       "                       -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
+       "                       -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
+       "                       -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
+       "                       -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
+       "                        2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
+       "                        2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
+       "                       -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
+       "                        1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
+       "                        2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
+       "                       -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
+       "                        7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
+       "                       -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
+       "                       -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
+       "                        3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
+       "                       -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
+       "                       -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
+       "                        1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
+       "                        8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
+       "                       -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
+       "                       -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
+       "                        3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
+       "                       -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
+       "                       -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
+       "                       -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
+       "                       -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
+       "                       -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
+       "                       -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
+       "                       -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
+       "                       -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
+       "                       -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
+       "                       -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
+       "                       -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
+       "                       -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
+       "                       -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
+       "                       -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
+       "                       -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
+       "                       -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
+       "                       -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
+       "                        1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
+       "                       -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
+       "                       -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
+       "                       -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
+       "                       -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
+       "                       -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
+       "                       -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
+       "                       -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
+       "                       -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
+       "                       -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
+       "                       -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
+       "                        7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
+       "                        -0.00371265,  0.03133386],\n",
+       "                       [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
+       "                         0.01188842, -0.0047044 ],\n",
+       "                       [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
+       "                         0.0055303 ,  0.00608071],\n",
+       "                       ...,\n",
+       "                       [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
+       "                        -0.00608842, -0.00880447],\n",
+       "                       [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
+       "                        -0.0024398 ,  0.01270658],\n",
+       "                       [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
+       "                         0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
+       "                        4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
+       "                       -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
+       "                        6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
+       "                       -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
+       "                        7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
+       "                        1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
+       "                        4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
+       "                       -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
+       "                       -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
+       "                        6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
+       "                        2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
+       "                        8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
+       "                        5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
+       "                       -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
+       "                       -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
+       "                        8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
+       "                       -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
+       "                       -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
+       "                        1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
+       "                        1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
+       "                       -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
+       "                        1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
+       "                       -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
+       "                       -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
+       "                       -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
+       "                       -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
+       "                       -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
+       "                        9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
+       "                        8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
+       "                       -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
+       "                       -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
+       "                       -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
+       "                       -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
+       "                        1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
+       "                       -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
+       "                       -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
+       "                        2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
+       "                        7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
+       "                        1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
+       "                        5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
+       "                       -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
+       "                        2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
+       "                        6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
+       "                       -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
+       "                       -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
+       "                        5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
+       "                        1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (dropout): Dropout(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_kwargs): Dict(\n",
+       "          (name): 'transformer'\n",
+       "          (trainable): True\n",
+       "          (dtype): 'float32'\n",
+       "        )\n",
+       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "        array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
+       "                 -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
+       "                  6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
+       "                 -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
+       "                  7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
+       "                 -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
+       "                 -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
+       "                 -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
+       "                 -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
+       "                  4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
+       "                  1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
+       "                 -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
+       "                  1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
+       "                  2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
+       "                 -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
+       "                 -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
+       "                 -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
+       "                 -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
+       "                  7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
+       "                 -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
+       "                 -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
+       "                 -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
+       "                  1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
+       "                 -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
+       "                 -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
+       "                  1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
+       "                 -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
+       "                 -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
+       "                 -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
+       "                 -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
+       "                 -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
+       "                 -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
+       "                 -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
+       "                  4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
+       "                 -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
+       "                  6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
+       "                 -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
+       "                 -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
+       "                  5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
+       "                 -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
+       "                 -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
+       "                  1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
+       "                  1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
+       "                  1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
+       "                  1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
+       "                 -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
+       "                  3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
+       "                  3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
+       "                  7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
+       "                 -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
+       "                 -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
+       "                  2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
+       "                  9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
+       "                  1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
+       "                 -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
+       "                  1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
+       "                  1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
+       "                 -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
+       "                 -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
+       "                 -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
+       "                  2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
+       "                 -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
+       "                  1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
+       "                  4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
+       "              dtype=float32)>\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_pre): PrepareTransformerInputs(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_post): LastHiddenState(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_post): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): TransformerOutputToRagged(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TransformerInferenceHiddenState(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_pre): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): SequenceCausalLastInference(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): ExtractMaskFromTargets(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "  )\n",
+       "  (test_pre): SequencePredictLast(\n",
+       "    (_pre): SequentialBlock(\n",
+       "      (layers): List(\n",
+       "        (0): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "        (1): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "      )\n",
+       "      (prepare_lists): PrepareListFeatures()\n",
+       "    )\n",
+       "    (transformer): XLNetBlock(\n",
+       "      (transformer): TFXLNetMainLayer(\n",
+       "        (word_embedding): TFSharedEmbeddings(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (layer): List(\n",
+       "          (0): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
+       "                       1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
+       "                       1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
+       "                       0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
+       "                       0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
+       "                       1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
+       "                       0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
+       "                       1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
+       "                       1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
+       "                       0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
+       "                       1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
+       "                       0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
+       "                       1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
+       "                       1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
+       "                       0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
+       "                       1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
+       "                       1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
+       "                       0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
+       "                       1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
+       "                       1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
+       "                       0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
+       "                       1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
+       "                       1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
+       "                       1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
+       "                       1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
+       "                       1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
+       "                       1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
+       "                       1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
+       "                       1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
+       "                       0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
+       "                       1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
+       "                       1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
+       "                       0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
+       "                       1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
+       "                       1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
+       "                       0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
+       "                       1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
+       "                       1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
+       "                       1.0107577 , 1.0596876 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
+       "                        6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
+       "                       -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
+       "                        1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
+       "                       -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
+       "                       -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
+       "                        5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
+       "                       -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
+       "                        1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
+       "                       -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
+       "                       -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
+       "                        3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
+       "                        1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
+       "                       -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
+       "                        5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
+       "                        1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
+       "                       -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
+       "                       -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
+       "                       -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
+       "                       -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
+       "                       -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
+       "                        3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
+       "                        1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
+       "                       -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
+       "                       -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
+       "                       -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
+       "                       -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
+       "                        3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
+       "                        7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
+       "                       -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
+       "                        1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
+       "                       -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
+       "                       -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
+       "                       -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
+       "                       -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
+       "                        4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
+       "                       -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
+       "                        1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
+       "                       -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
+       "                       -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
+       "                       -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
+       "                       -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
+       "                        3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
+       "                        3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
+       "                       -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
+       "                       -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
+       "                       -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
+       "                        2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
+       "                       -0.12369698, -0.12235671],\n",
+       "                      [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
+       "                        0.02513896,  0.02814367],\n",
+       "                      [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
+       "                        0.13238919, -0.11256532],\n",
+       "                      ...,\n",
+       "                      [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
+       "                       -0.08214942, -0.12410881],\n",
+       "                      [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
+       "                        0.06023917,  0.07214421],\n",
+       "                      [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
+       "                       -0.06763364,  0.05550697]],\n",
+       "              \n",
+       "                     [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
+       "                        0.09601118,  0.09255827],\n",
+       "                      [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
+       "                        0.0475458 , -0.07742295],\n",
+       "                      [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
+       "                       -0.05903677,  0.03677876],\n",
+       "                      ...,\n",
+       "                      [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
+       "                        0.10452053,  0.12009949],\n",
+       "                      [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
+       "                       -0.10300028, -0.1044563 ],\n",
+       "                      [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
+       "                        0.06220397, -0.09111064]],\n",
+       "              \n",
+       "                     [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
+       "                       -0.02168103,  0.01568287],\n",
+       "                      [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
+       "                        0.03995887, -0.01548792],\n",
+       "                      [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
+       "                        0.08776175, -0.08319726],\n",
+       "                      ...,\n",
+       "                      [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
+       "                        0.07759988,  0.03240566],\n",
+       "                      [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
+       "                       -0.031378  , -0.02404469],\n",
+       "                      [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
+       "                       -0.02130386,  0.04530597]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
+       "                        0.15062724,  0.12837149],\n",
+       "                      [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
+       "                        0.04776929, -0.08523804],\n",
+       "                      [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
+       "                       -0.09076596,  0.08992289],\n",
+       "                      ...,\n",
+       "                      [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
+       "                        0.10044491,  0.12639156],\n",
+       "                      [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
+       "                       -0.05817353, -0.03657222],\n",
+       "                      [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
+       "                        0.04052235, -0.05048911]],\n",
+       "              \n",
+       "                     [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
+       "                       -0.0087873 ,  0.00054167],\n",
+       "                      [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
+       "                       -0.03617225,  0.04379632],\n",
+       "                      [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
+       "                        0.00649468,  0.00245123],\n",
+       "                      ...,\n",
+       "                      [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
+       "                       -0.01775305,  0.01014595],\n",
+       "                      [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
+       "                       -0.01851957,  0.00425063],\n",
+       "                      [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
+       "                        0.00027551,  0.04116082]],\n",
+       "              \n",
+       "                     [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
+       "                        0.11864589,  0.10221381],\n",
+       "                      [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
+       "                       -0.05264059,  0.00311177],\n",
+       "                      [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
+       "                       -0.04377652,  0.03546317],\n",
+       "                      ...,\n",
+       "                      [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
+       "                        0.02304599,  0.05762106],\n",
+       "                      [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
+       "                       -0.05019034, -0.04568675],\n",
+       "                      [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
+       "                        0.04290378, -0.0746149 ]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
+       "                       -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
+       "                      [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
+       "                        2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
+       "                      [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
+       "                        2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
+       "                       -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
+       "                      [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
+       "                        3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
+       "                      [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
+       "                       -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
+       "              \n",
+       "                     [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
+       "                       -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
+       "                      [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
+       "                       -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
+       "                      [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
+       "                        3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
+       "                      ...,\n",
+       "                      [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
+       "                        1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
+       "                      [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
+       "                       -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
+       "                      [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
+       "                       -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
+       "              \n",
+       "                     [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
+       "                       -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
+       "                      [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
+       "                        1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
+       "                      [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
+       "                        1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
+       "                      ...,\n",
+       "                      [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
+       "                       -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
+       "                      [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
+       "                        2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
+       "                      [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
+       "                       -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
+       "                       -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
+       "                      [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
+       "                        4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
+       "                      [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
+       "                        3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
+       "                        1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
+       "                      [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
+       "                       -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
+       "                      [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
+       "                        2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
+       "              \n",
+       "                     [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
+       "                        6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
+       "                      [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
+       "                       -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
+       "                      [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
+       "                       -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
+       "                       -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
+       "                      [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
+       "                        5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
+       "                      [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
+       "                        4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
+       "              \n",
+       "                     [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
+       "                       -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
+       "                      [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
+       "                       -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
+       "                      [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
+       "                        1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
+       "                      ...,\n",
+       "                      [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
+       "                        1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
+       "                      [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
+       "                       -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
+       "                      [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
+       "                       -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
+       "                        1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
+       "                      [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
+       "                       -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
+       "                      [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
+       "                       -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
+       "                       -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
+       "                      [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
+       "                       -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
+       "                      [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
+       "                        1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
+       "              \n",
+       "                     [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
+       "                       -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
+       "                      [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
+       "                        1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
+       "                      [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
+       "                       -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
+       "                      ...,\n",
+       "                      [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
+       "                        4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
+       "                      [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
+       "                       -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
+       "                      [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
+       "                       -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
+       "              \n",
+       "                     [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
+       "                       -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
+       "                      [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
+       "                        3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
+       "                      [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
+       "                        1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
+       "                      ...,\n",
+       "                      [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
+       "                        8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
+       "                      [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
+       "                        2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
+       "                      [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
+       "                        1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
+       "                        1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
+       "                      [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
+       "                       -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
+       "                      [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
+       "                       -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
+       "                      ...,\n",
+       "                      [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
+       "                        1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
+       "                      [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
+       "                        9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
+       "                      [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
+       "                        2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
+       "              \n",
+       "                     [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
+       "                       -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
+       "                      [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
+       "                       -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
+       "                      [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
+       "                       -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
+       "                       -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
+       "                      [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
+       "                        7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
+       "                      [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
+       "                        2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
+       "              \n",
+       "                     [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
+       "                       -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
+       "                      [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
+       "                        1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
+       "                      [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
+       "                        5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
+       "                        9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
+       "                      [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
+       "                       -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
+       "                      [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
+       "                        3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
+       "                        1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
+       "                      [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
+       "                        1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
+       "                      [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
+       "                        1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
+       "                      ...,\n",
+       "                      [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
+       "                        2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
+       "                      [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
+       "                       -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
+       "                      [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
+       "                        3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
+       "              \n",
+       "                     [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
+       "                       -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
+       "                      [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
+       "                        4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
+       "                      [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
+       "                       -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
+       "                      ...,\n",
+       "                      [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
+       "                        1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
+       "                      [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
+       "                       -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
+       "                      [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
+       "                       -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
+       "              \n",
+       "                     [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
+       "                       -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
+       "                      [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
+       "                        1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
+       "                      [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
+       "                        8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
+       "                      ...,\n",
+       "                      [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
+       "                        3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
+       "                      [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
+       "                        1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
+       "                      [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
+       "                        5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
+       "                       -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
+       "                      [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
+       "                        3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
+       "                      [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
+       "                        5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
+       "                      ...,\n",
+       "                      [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
+       "                       -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
+       "                      [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
+       "                        1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
+       "                      [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
+       "                        5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
+       "              \n",
+       "                     [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
+       "                        2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
+       "                      [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
+       "                       -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
+       "                      [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
+       "                       -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
+       "                      ...,\n",
+       "                      [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
+       "                       -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
+       "                      [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
+       "                        1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
+       "                      [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
+       "                        2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
+       "              \n",
+       "                     [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
+       "                       -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
+       "                      [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
+       "                       -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
+       "                      [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
+       "                        1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
+       "                      ...,\n",
+       "                      [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
+       "                        2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
+       "                      [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
+       "                       -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
+       "                      [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
+       "                       -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
+       "                       -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
+       "                      [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
+       "                        2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
+       "                      [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
+       "                        1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
+       "                      ...,\n",
+       "                      [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
+       "                       -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
+       "                      [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
+       "                       -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
+       "                      [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
+       "                       -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
+       "              \n",
+       "                     [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
+       "                       -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
+       "                      [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
+       "                        1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
+       "                      [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
+       "                        7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
+       "                      ...,\n",
+       "                      [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
+       "                       -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
+       "                      [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
+       "                       -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
+       "                      [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
+       "                       -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
+       "              \n",
+       "                     [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
+       "                       -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
+       "                      [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
+       "                        1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
+       "                      [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
+       "                        1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
+       "                      ...,\n",
+       "                      [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
+       "                       -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
+       "                      [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
+       "                       -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
+       "                      [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
+       "                       -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
+       "                       -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
+       "                      [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
+       "                        1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
+       "                      [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
+       "                        3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
+       "                      ...,\n",
+       "                      [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
+       "                       -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
+       "                      [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
+       "                       -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
+       "                      [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
+       "                        2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
+       "              \n",
+       "                     [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
+       "                        2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
+       "                      [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
+       "                       -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
+       "                      [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
+       "                       -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
+       "                        8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
+       "                      [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
+       "                        5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
+       "                      [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
+       "                        1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
+       "              \n",
+       "                     [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
+       "                       -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
+       "                      [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
+       "                       -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
+       "                      [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
+       "                       -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
+       "                      ...,\n",
+       "                      [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
+       "                       -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
+       "                      [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
+       "                       -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
+       "                      [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
+       "                       -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
+       "                       0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
+       "                       0.37070706,  0.35559788],\n",
+       "                     [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
+       "                       0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
+       "                       0.0776644 , -0.07216003],\n",
+       "                     [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
+       "                       0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
+       "                      -0.16261199,  0.16058037],\n",
+       "                     [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
+       "                      -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
+       "                      -0.20082442, -0.21696469],\n",
+       "                     [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
+       "                      -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
+       "                       0.24445428,  0.27668142],\n",
+       "                     [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
+       "                      -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
+       "                      -0.29824102, -0.31075856],\n",
+       "                     [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
+       "                      -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
+       "                      -0.38081092, -0.39247522],\n",
+       "                     [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
+       "                       0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
+       "                      -0.23054157, -0.22402786],\n",
+       "                     [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
+       "                       0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
+       "                       0.33728704, -0.35013184],\n",
+       "                     [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
+       "                      -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
+       "                       0.29340708,  0.2927634 ],\n",
+       "                     [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
+       "                       0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
+       "                      -0.35776407, -0.33932883],\n",
+       "                     [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
+       "                      -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
+       "                       0.3707558 , -0.3911879 ],\n",
+       "                     [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
+       "                      -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
+       "                       0.12306441,  0.10861646],\n",
+       "                     [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
+       "                       0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
+       "                       0.39667937,  0.38020003],\n",
+       "                     [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
+       "                      -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
+       "                      -0.29706052, -0.31455588],\n",
+       "                     [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
+       "                      -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
+       "                       0.10973554, -0.05313613]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
+       "                       0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
+       "                      -0.01393487, -0.01188555],\n",
+       "                     [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
+       "                       0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
+       "                      -0.00388369, -0.01727411],\n",
+       "                     [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
+       "                       0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
+       "                       0.12056144, -0.15448172],\n",
+       "                     [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
+       "                      -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
+       "                      -0.11767636, -0.10332035],\n",
+       "                     [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
+       "                      -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
+       "                       0.09375099,  0.09006778],\n",
+       "                     [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
+       "                      -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
+       "                      -0.07627007, -0.09407212],\n",
+       "                     [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
+       "                      -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
+       "                      -0.09510182, -0.07508499],\n",
+       "                     [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
+       "                       0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
+       "                      -0.11242524, -0.12828752],\n",
+       "                     [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
+       "                       0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
+       "                       0.1122688 , -0.0936246 ],\n",
+       "                     [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
+       "                      -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
+       "                       0.08842966,  0.07842822],\n",
+       "                     [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
+       "                       0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
+       "                      -0.11914786, -0.05327021],\n",
+       "                     [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
+       "                      -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
+       "                       0.12055498, -0.11824764],\n",
+       "                     [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
+       "                       0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
+       "                       0.11570179,  0.13300925],\n",
+       "                     [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
+       "                       0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
+       "                       0.14165434,  0.07234689],\n",
+       "                     [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
+       "                      -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
+       "                      -0.0326612 , -0.05191225],\n",
+       "                     [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
+       "                       0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
+       "                       0.03455094,  0.00630618]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
+       "                       -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
+       "                       -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
+       "                        6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
+       "                      [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
+       "                        4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
+       "                        6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
+       "                        9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
+       "                      [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
+       "                       -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
+       "                        4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
+       "                        7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
+       "                      [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
+       "                        2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
+       "                       -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
+       "                       -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
+       "                      [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
+       "                        1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
+       "                        7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
+       "                        1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
+       "                      [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
+       "                        2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
+       "                       -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
+       "                       -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
+       "                      [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
+       "                        3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
+       "                       -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
+       "                       -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
+       "                      [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
+       "                        2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
+       "                        4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
+       "                        4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
+       "                      [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
+       "                        4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
+       "                        1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
+       "                        1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
+       "                      [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
+       "                        3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
+       "                       -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
+       "                        5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
+       "                      [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
+       "                        7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
+       "                        1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
+       "                       -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
+       "                      [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
+       "                       -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
+       "                       -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
+       "                        7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
+       "                      [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
+       "                       -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
+       "                       -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
+       "                       -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
+       "                      [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
+       "                        4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
+       "                       -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
+       "                        2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
+       "                      [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
+       "                        1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
+       "                        1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
+       "                       -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
+       "                      [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
+       "                       -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
+       "                       -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
+       "                        1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
+       "              \n",
+       "                     [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
+       "                       -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
+       "                       -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
+       "                       -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
+       "                      [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
+       "                        1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
+       "                        5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
+       "                       -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
+       "                      [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
+       "                       -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
+       "                       -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
+       "                       -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
+       "                      [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
+       "                       -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
+       "                       -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
+       "                       -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
+       "                      [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
+       "                       -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
+       "                       -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
+       "                        1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
+       "                      [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
+       "                        7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
+       "                       -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
+       "                       -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
+       "                      [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
+       "                       -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
+       "                       -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
+       "                        1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
+       "                      [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
+       "                       -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
+       "                        1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
+       "                        2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
+       "                      [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
+       "                        4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
+       "                       -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
+       "                        1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
+       "                      [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
+       "                       -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
+       "                        9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
+       "                       -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
+       "                      [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
+       "                        2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
+       "                       -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
+       "                        2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
+       "                      [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
+       "                        1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
+       "                        1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
+       "                        1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
+       "                      [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
+       "                       -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
+       "                       -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
+       "                        1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
+       "                      [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
+       "                        1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
+       "                       -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
+       "                        5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
+       "                      [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
+       "                        1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
+       "                       -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
+       "                       -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
+       "                      [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
+       "                       -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
+       "                       -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
+       "                       -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
+       "                       1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
+       "                       1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
+       "                       1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
+       "                       0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
+       "                       1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
+       "                       1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
+       "                       1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
+       "                       1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
+       "                       0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
+       "                       1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
+       "                       1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
+       "                       1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
+       "                       1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
+       "                       1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
+       "                       1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
+       "                       1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
+       "                       1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
+       "                       1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
+       "                       1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
+       "                       1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
+       "                       1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
+       "                       1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
+       "                       1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
+       "                       1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
+       "                       1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
+       "                       1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
+       "                       1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
+       "                       1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
+       "                       0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
+       "                       1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
+       "                       1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
+       "                       1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
+       "                       1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
+       "                       1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
+       "                       0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
+       "                       1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
+       "                       1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
+       "                       1.0334889 , 1.0734522 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
+       "                        0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
+       "                       -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
+       "                        0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
+       "                       -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
+       "                       -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
+       "                        0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
+       "                       -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
+       "                       -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
+       "                        0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
+       "                        0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
+       "                        0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
+       "                        0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
+       "                       -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
+       "                       -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
+       "                       -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
+       "                       -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
+       "                        0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
+       "                       -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
+       "                       -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
+       "                       -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
+       "                        0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
+       "                       -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
+       "                        0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
+       "                       -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
+       "                        0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
+       "                        0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
+       "                        0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
+       "                        0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
+       "                        0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
+       "                        0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
+       "                       -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
+       "                        0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
+       "                       -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
+       "                       -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
+       "                        0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
+       "                       -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
+       "                        0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
+       "                       -0.02164674,  0.01641086], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
+       "                        -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
+       "                       [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
+       "                        -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
+       "                       [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
+       "                        -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
+       "                       ...,\n",
+       "                       [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
+       "                        -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
+       "                       [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
+       "                        -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
+       "                       [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
+       "                        -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
+       "                        2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
+       "                       -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
+       "                        1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
+       "                        2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
+       "                        1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
+       "                        5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
+       "                        1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
+       "                        1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
+       "                        1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
+       "                        2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
+       "                        9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
+       "                        2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
+       "                       -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
+       "                       -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
+       "                        2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
+       "                        8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
+       "                       -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
+       "                        1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
+       "                        1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
+       "                       -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
+       "                       -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
+       "                        2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
+       "                        7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
+       "                        1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
+       "                       -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
+       "                        6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
+       "                        1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
+       "                        3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
+       "                       -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
+       "                       -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
+       "                       -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
+       "                        1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
+       "                       -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
+       "                       -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
+       "                        6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
+       "                        7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
+       "                        2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
+       "                        2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
+       "                        6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
+       "                        1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
+       "                       -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
+       "                        1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
+       "                        4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
+       "                       -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
+       "                        5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
+       "                        2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
+       "                        1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
+       "                       -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
+       "                       -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
+       "                        2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
+       "                        3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
+       "                       -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
+       "                        2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
+       "                        1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
+       "                        3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
+       "                        6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
+       "                       -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
+       "                        8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
+       "                        2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
+       "                        1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
+       "                        2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
+       "                        9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
+       "                        4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
+       "                        2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
+       "                       -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
+       "                       -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
+       "                       -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
+       "                        1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
+       "                        1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
+       "                       -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
+       "                       -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
+       "                        9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
+       "                       -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
+       "                       -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
+       "                        1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
+       "                        3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
+       "                       -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
+       "                       -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
+       "                        3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
+       "                        7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
+       "                        1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
+       "                        8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
+       "                        1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
+       "                       -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
+       "                       -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
+       "                        1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
+       "                        2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
+       "                        8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
+       "                        4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
+       "                        1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
+       "                        1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
+       "                       -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
+       "                       -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
+       "                        4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
+       "                        1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
+       "                        2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
+       "                        1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
+       "                       -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
+       "                       -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
+       "                       -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
+       "                        1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
+       "                       -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
+       "                        9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
+       "                        6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
+       "                       -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
+       "                        1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
+       "                        6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
+       "                        1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
+       "                       -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
+       "                        6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
+       "                       -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
+       "                        1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
+       "                       -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
+       "                        4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
+       "                       -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
+       "                        1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
+       "                        2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
+       "                        1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
+       "                        1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
+       "                        6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
+       "                       -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
+       "                        3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
+       "                       -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
+       "                        2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
+       "                       -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
+       "                        1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
+       "                        2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
+       "                       -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
+       "                        1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
+       "                        4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
+       "                        1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
+       "                        6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
+       "                        8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
+       "                        6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
+       "                       -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
+       "                        1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
+       "                        1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
+       "                       -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
+       "                       -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
+       "                        1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
+       "                        2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
+       "                       -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
+       "                       -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
+       "                        2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
+       "                        1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
+       "                        3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
+       "                       -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
+       "                        7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
+       "                        3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
+       "                        1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
+       "                        1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
+       "                        1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
+       "                        4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
+       "                       -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
+       "                        1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
+       "                        1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
+       "                       -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
+       "                       -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
+       "                        8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
+       "                        1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
+       "                        1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
+       "                       -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
+       "                        6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
+       "                       -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
+       "                        6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
+       "                       -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
+       "                       -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
+       "                       -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
+       "                        1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
+       "                        1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
+       "                        1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
+       "                        7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
+       "                        1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
+       "                       -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
+       "                       -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
+       "                        1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
+       "                       -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
+       "                        3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
+       "                       -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
+       "                        1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
+       "                        7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
+       "                       -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
+       "                       -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
+       "                        2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
+       "                       -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
+       "                        2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
+       "                        1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
+       "                       -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
+       "                        1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
+       "                       -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
+       "                        2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
+       "                        -0.00204962,  0.01233771],\n",
+       "                       [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
+       "                         0.01483128,  0.02967459],\n",
+       "                       [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
+       "                         0.01299867, -0.00927783],\n",
+       "                       ...,\n",
+       "                       [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
+       "                         0.00615161,  0.00803701],\n",
+       "                       [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
+       "                        -0.00725265, -0.00729213],\n",
+       "                       [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
+       "                        -0.01250057, -0.02561413]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
+       "                        1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
+       "                       -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
+       "                        1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
+       "                       -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
+       "                       -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
+       "                        5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
+       "                       -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
+       "                        8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
+       "                       -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
+       "                       -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
+       "                        2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
+       "                       -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
+       "                        7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
+       "                       -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
+       "                        7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
+       "                        8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
+       "                       -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
+       "                       -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
+       "                       -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
+       "                       -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
+       "                        2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
+       "                        1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
+       "                       -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
+       "                       -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
+       "                       -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
+       "                       -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
+       "                        7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
+       "                       -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
+       "                       -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
+       "                        5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
+       "                       -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
+       "                       -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
+       "                       -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
+       "                       -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
+       "                        6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
+       "                       -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
+       "                        1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
+       "                       -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
+       "                       -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
+       "                        7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
+       "                        1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
+       "                        9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
+       "                        2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
+       "                       -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
+       "                       -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
+       "                        5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
+       "                        1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
+       "                       1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
+       "                       1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
+       "                       0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
+       "                       1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
+       "                       1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
+       "                       0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
+       "                       1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
+       "                       1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
+       "                       0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
+       "                       1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
+       "                       0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
+       "                       1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
+       "                       1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
+       "                       1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
+       "                       1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
+       "                       1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
+       "                       1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
+       "                       1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
+       "                       1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
+       "                       1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
+       "                       1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
+       "                       1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
+       "                       1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
+       "                       0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
+       "                       1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
+       "                       0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
+       "                       1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
+       "                       0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
+       "                       0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
+       "                       1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
+       "                       1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
+       "                       0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
+       "                       1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
+       "                       1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
+       "                       0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
+       "                       1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
+       "                       1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
+       "                       1.0128983 , 1.0420789 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
+       "                       -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
+       "                        8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
+       "                        2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
+       "                       -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
+       "                       -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
+       "                       -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
+       "                       -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
+       "                       -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
+       "                        2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
+       "                        3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
+       "                        3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
+       "                        3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
+       "                       -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
+       "                       -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
+       "                        1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
+       "                       -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
+       "                       -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
+       "                       -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
+       "                       -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
+       "                       -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
+       "                        1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
+       "                        1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
+       "                       -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
+       "                       -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
+       "                       -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
+       "                        2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
+       "                       -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
+       "                       -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
+       "                       -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
+       "                        1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
+       "                        1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
+       "                       -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
+       "                       -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
+       "                       -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
+       "                        1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
+       "                       -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
+       "                       -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
+       "                       -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
+       "                        7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
+       "                       -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
+       "                        1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
+       "                        3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
+       "                        3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
+       "                       -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
+       "                       -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
+       "                       -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
+       "                        8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
+       "                        7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
+       "                      [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
+       "                        1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
+       "                      [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
+       "                       -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
+       "                      ...,\n",
+       "                      [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
+       "                        3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
+       "                      [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
+       "                        1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
+       "                      [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
+       "                        9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
+       "              \n",
+       "                     [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
+       "                       -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
+       "                      [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
+       "                       -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
+       "                      [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
+       "                        3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
+       "                        7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
+       "                      [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
+       "                       -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
+       "                      [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
+       "                       -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
+       "              \n",
+       "                     [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
+       "                       -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
+       "                      [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
+       "                       -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
+       "                      [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
+       "                        6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
+       "                       -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
+       "                      [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
+       "                       -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
+       "                      [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
+       "                       -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
+       "                       -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
+       "                      [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
+       "                       -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
+       "                      [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
+       "                       -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
+       "                      ...,\n",
+       "                      [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
+       "                        9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
+       "                      [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
+       "                       -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
+       "                      [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
+       "                       -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
+       "              \n",
+       "                     [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
+       "                        1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
+       "                      [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
+       "                       -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
+       "                      [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
+       "                       -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
+       "                       -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
+       "                      [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
+       "                       -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
+       "                      [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
+       "                        7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
+       "              \n",
+       "                     [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
+       "                       -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
+       "                      [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
+       "                       -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
+       "                      [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
+       "                        1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
+       "                      ...,\n",
+       "                      [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
+       "                        3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
+       "                      [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
+       "                        5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
+       "                      [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
+       "                        2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
+       "                    dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
+       "                       -0.10876201,  0.0518376 ],\n",
+       "                      [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
+       "                        0.01024422, -0.0047144 ],\n",
+       "                      [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
+       "                        0.01880827,  0.00846547],\n",
+       "                      ...,\n",
+       "                      [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
+       "                        0.04121248,  0.00622395],\n",
+       "                      [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
+       "                        0.00683424, -0.01068041],\n",
+       "                      [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
+       "                       -0.01545478,  0.00205119]],\n",
+       "              \n",
+       "                     [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
+       "                       -0.12276172, -0.00676864],\n",
+       "                      [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
+       "                        0.01007075,  0.03550502],\n",
+       "                      [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
+       "                        0.00668171,  0.04424441],\n",
+       "                      ...,\n",
+       "                      [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
+       "                       -0.02856454,  0.03050387],\n",
+       "                      [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
+       "                       -0.02215741,  0.01845626],\n",
+       "                      [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
+       "                        0.03298638,  0.01737015]],\n",
+       "              \n",
+       "                     [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
+       "                        0.00755295,  0.01676364],\n",
+       "                      [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
+       "                       -0.03828989, -0.06387301],\n",
+       "                      [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
+       "                        0.04120573, -0.04320288],\n",
+       "                      ...,\n",
+       "                      [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
+       "                        0.039828  ,  0.01575541],\n",
+       "                      [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
+       "                       -0.00391845, -0.0216135 ],\n",
+       "                      [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
+       "                       -0.05756253,  0.01769848]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
+       "                       -0.10177041, -0.03314629],\n",
+       "                      [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
+       "                        0.0264037 ,  0.00855082],\n",
+       "                      [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
+       "                       -0.08611775,  0.08852727],\n",
+       "                      ...,\n",
+       "                      [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
+       "                       -0.05256388,  0.00049124],\n",
+       "                      [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
+       "                       -0.010408  , -0.02198589],\n",
+       "                      [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
+       "                        0.00311856,  0.02825575]],\n",
+       "              \n",
+       "                     [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
+       "                        0.09931507,  0.01606977],\n",
+       "                      [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
+       "                       -0.00323939,  0.06076182],\n",
+       "                      [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
+       "                       -0.01210698, -0.05587041],\n",
+       "                      ...,\n",
+       "                      [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
+       "                       -0.00253815, -0.04528459],\n",
+       "                      [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
+       "                        0.01135639, -0.00226221],\n",
+       "                      [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
+       "                       -0.000718  , -0.0467924 ]],\n",
+       "              \n",
+       "                     [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
+       "                       -0.07196326,  0.02667288],\n",
+       "                      [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
+       "                        0.03794343, -0.01332447],\n",
+       "                      [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
+       "                        0.0457263 ,  0.05769112],\n",
+       "                      ...,\n",
+       "                      [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
+       "                        0.00275381,  0.01149508],\n",
+       "                      [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
+       "                        0.05586889, -0.01648431],\n",
+       "                      [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
+       "                       -0.06611379,  0.05732429]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
+       "                        1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
+       "                      [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
+       "                        1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
+       "                      [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
+       "                       -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
+       "                        2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
+       "                      [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
+       "                        4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
+       "                      [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
+       "                       -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
+       "              \n",
+       "                     [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
+       "                       -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
+       "                      [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
+       "                       -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
+       "                      [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
+       "                       -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
+       "                      ...,\n",
+       "                      [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
+       "                        6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
+       "                      [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
+       "                       -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
+       "                      [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
+       "                       -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
+       "              \n",
+       "                     [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
+       "                       -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
+       "                      [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
+       "                        1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
+       "                      [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
+       "                       -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
+       "                      ...,\n",
+       "                      [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
+       "                        5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
+       "                      [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
+       "                        1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
+       "                      [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
+       "                        1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
+       "                        2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
+       "                      [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
+       "                        3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
+       "                      [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
+       "                        4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
+       "                      ...,\n",
+       "                      [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
+       "                        8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
+       "                      [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
+       "                        2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
+       "                      [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
+       "                        2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
+       "              \n",
+       "                     [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
+       "                       -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
+       "                      [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
+       "                        2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
+       "                      [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
+       "                        3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
+       "                      ...,\n",
+       "                      [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
+       "                        2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
+       "                      [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
+       "                        7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
+       "                      [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
+       "                        1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
+       "              \n",
+       "                     [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
+       "                        2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
+       "                      [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
+       "                        8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
+       "                      [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
+       "                        1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
+       "                       -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
+       "                      [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
+       "                       -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
+       "                      [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
+       "                        2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
+       "                       -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
+       "                      [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
+       "                       -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
+       "                      [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
+       "                        3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
+       "                      ...,\n",
+       "                      [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
+       "                        3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
+       "                      [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
+       "                        3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
+       "                      [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
+       "                        3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
+       "              \n",
+       "                     [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
+       "                        3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
+       "                      [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
+       "                        1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
+       "                      [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
+       "                       -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
+       "                      ...,\n",
+       "                      [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
+       "                       -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
+       "                      [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
+       "                        3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
+       "                      [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
+       "                        1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
+       "              \n",
+       "                     [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
+       "                       -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
+       "                      [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
+       "                        1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
+       "                      [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
+       "                       -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
+       "                      ...,\n",
+       "                      [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
+       "                       -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
+       "                      [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
+       "                        1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
+       "                      [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
+       "                        6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
+       "                        1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
+       "                      [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
+       "                        4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
+       "                      [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
+       "                       -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
+       "                      ...,\n",
+       "                      [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
+       "                        3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
+       "                      [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
+       "                        9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
+       "                      [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
+       "                        6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
+       "              \n",
+       "                     [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
+       "                       -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
+       "                      [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
+       "                        8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
+       "                      [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
+       "                        1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
+       "                      ...,\n",
+       "                      [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
+       "                       -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
+       "                      [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
+       "                       -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
+       "                      [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
+       "                        2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
+       "              \n",
+       "                     [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
+       "                       -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
+       "                      [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
+       "                        4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
+       "                      [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
+       "                       -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
+       "                      ...,\n",
+       "                      [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
+       "                       -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
+       "                      [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
+       "                        3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
+       "                      [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
+       "                        5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
+       "                        2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
+       "                      [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
+       "                        1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
+       "                      [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
+       "                       -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
+       "                      ...,\n",
+       "                      [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
+       "                        2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
+       "                      [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
+       "                        2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
+       "                      [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
+       "                        1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
+       "              \n",
+       "                     [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
+       "                        1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
+       "                      [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
+       "                        1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
+       "                      [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
+       "                       -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
+       "                      ...,\n",
+       "                      [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
+       "                        1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
+       "                      [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
+       "                        1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
+       "                      [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
+       "                        1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
+       "              \n",
+       "                     [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
+       "                        1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
+       "                      [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
+       "                        1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
+       "                      [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
+       "                       -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
+       "                      ...,\n",
+       "                      [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
+       "                        1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
+       "                      [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
+       "                        1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
+       "                      [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
+       "                        1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
+       "                        5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
+       "                      [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
+       "                        1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
+       "                      [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
+       "                        1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
+       "                      ...,\n",
+       "                      [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
+       "                        4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
+       "                      [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
+       "                       -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
+       "                      [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
+       "                        1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
+       "              \n",
+       "                     [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
+       "                       -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
+       "                      [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
+       "                        1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
+       "                      [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
+       "                       -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
+       "                      ...,\n",
+       "                      [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
+       "                       -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
+       "                      [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
+       "                       -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
+       "                      [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
+       "                        1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
+       "              \n",
+       "                     [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
+       "                        1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
+       "                      [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
+       "                        3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
+       "                      [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
+       "                       -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
+       "                      ...,\n",
+       "                      [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
+       "                        1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
+       "                      [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
+       "                        2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
+       "                      [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
+       "                        8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
+       "                      -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
+       "                      -0.08941454,  0.37458393],\n",
+       "                     [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
+       "                       0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
+       "                      -0.32297572,  0.3089489 ],\n",
+       "                     [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
+       "                      -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
+       "                      -0.31591862, -0.29939887],\n",
+       "                     [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
+       "                      -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
+       "                       0.2792229 ,  0.26833603],\n",
+       "                     [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
+       "                       0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
+       "                      -0.31171426, -0.25726327],\n",
+       "                     [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
+       "                       0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
+       "                       0.30099693,  0.2978344 ],\n",
+       "                     [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
+       "                       0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
+       "                       0.36704957, -0.07152183],\n",
+       "                     [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
+       "                       0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
+       "                      -0.24604012, -0.25978062],\n",
+       "                     [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
+       "                       0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
+       "                      -0.35605282, -0.34466416],\n",
+       "                     [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
+       "                       0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
+       "                      -0.36399728, -0.30652383],\n",
+       "                     [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
+       "                      -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
+       "                      -0.26509777,  0.27066582],\n",
+       "                     [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
+       "                      -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
+       "                       0.3016155 , -0.2862795 ],\n",
+       "                     [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
+       "                      -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
+       "                       0.31764168, -0.3219256 ],\n",
+       "                     [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
+       "                      -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
+       "                      -0.38232875, -0.37825328],\n",
+       "                     [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
+       "                      -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
+       "                      -0.35072395,  0.3597266 ],\n",
+       "                     [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
+       "                      -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
+       "                       0.2981984 , -0.3554742 ]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
+       "                      -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
+       "                      -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
+       "                       1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
+       "                     [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
+       "                      -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
+       "                       1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
+       "                       6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
+       "                     [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
+       "                       1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
+       "                       1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
+       "                      -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
+       "                     [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
+       "                      -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
+       "                      -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
+       "                      -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
+       "                     [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
+       "                      -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
+       "                       2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
+       "                      -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
+       "                     [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
+       "                       8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
+       "                       8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
+       "                       1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
+       "                     [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
+       "                      -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
+       "                       8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
+       "                      -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
+       "                     [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
+       "                       5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
+       "                      -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
+       "                       7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
+       "                     [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
+       "                       1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
+       "                       7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
+       "                       1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
+       "                     [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
+       "                      -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
+       "                       1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
+       "                       2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
+       "                     [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
+       "                      -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
+       "                      -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
+       "                       7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
+       "                     [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
+       "                      -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
+       "                      -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
+       "                      -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
+       "                     [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
+       "                       1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
+       "                      -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
+       "                       8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
+       "                     [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
+       "                       1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
+       "                      -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
+       "                       1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
+       "                     [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
+       "                      -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
+       "                       1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
+       "                       1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
+       "                     [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
+       "                       1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
+       "                      -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
+       "                       1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
+       "                        1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
+       "                       -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
+       "                       -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
+       "                      [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
+       "                        9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
+       "                        6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
+       "                       -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
+       "                      [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
+       "                       -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
+       "                        6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
+       "                        2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
+       "                      [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
+       "                       -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
+       "                       -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
+       "                       -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
+       "                      [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
+       "                        6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
+       "                        3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
+       "                        8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
+       "                      [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
+       "                        1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
+       "                       -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
+       "                        1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
+       "                      [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
+       "                       -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
+       "                       -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
+       "                        5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
+       "                      [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
+       "                        1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
+       "                       -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
+       "                        1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
+       "                      [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
+       "                        2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
+       "                       -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
+       "                        2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
+       "                      [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
+       "                        8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
+       "                        4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
+       "                        1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
+       "                      [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
+       "                        1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
+       "                        8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
+       "                        9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
+       "                      [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
+       "                        5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
+       "                       -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
+       "                        1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
+       "                      [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
+       "                        6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
+       "                        1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
+       "                       -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
+       "                      [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
+       "                        1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
+       "                       -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
+       "                        1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
+       "                      [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
+       "                        8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
+       "                        1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
+       "                        7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
+       "                      [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
+       "                       -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
+       "                       -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
+       "                       -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
+       "              \n",
+       "                     [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
+       "                        5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
+       "                       -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
+       "                       -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
+       "                      [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
+       "                        6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
+       "                       -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
+       "                       -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
+       "                      [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
+       "                       -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
+       "                       -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
+       "                       -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
+       "                      [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
+       "                       -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
+       "                        2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
+       "                       -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
+       "                      [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
+       "                       -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
+       "                        5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
+       "                        6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
+       "                      [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
+       "                       -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
+       "                       -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
+       "                        7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
+       "                      [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
+       "                        5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
+       "                        8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
+       "                        3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
+       "                      [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
+       "                        3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
+       "                        5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
+       "                       -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
+       "                      [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
+       "                       -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
+       "                        3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
+       "                       -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
+       "                      [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
+       "                        1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
+       "                        5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
+       "                        1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
+       "                      [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
+       "                        1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
+       "                       -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
+       "                       -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
+       "                      [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
+       "                        2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
+       "                        8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
+       "                       -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
+       "                      [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
+       "                        4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
+       "                       -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
+       "                       -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
+       "                      [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
+       "                       -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
+       "                        8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
+       "                       -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
+       "                      [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
+       "                       -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
+       "                       -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
+       "                       -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
+       "                      [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
+       "                       -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
+       "                       -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
+       "                       -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
+       "                       1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
+       "                       1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
+       "                       0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
+       "                       1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
+       "                       0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
+       "                       0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
+       "                       1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
+       "                       1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
+       "                       0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
+       "                       1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
+       "                       1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
+       "                       1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
+       "                       1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
+       "                       1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
+       "                       1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
+       "                       1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
+       "                       1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
+       "                       1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
+       "                       1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
+       "                       1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
+       "                       1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
+       "                       1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
+       "                       1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
+       "                       0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
+       "                       1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
+       "                       0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
+       "                       1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
+       "                       0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
+       "                       0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
+       "                       1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
+       "                       1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
+       "                       0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
+       "                       1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
+       "                       1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
+       "                       0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
+       "                       1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
+       "                       1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
+       "                       1.0037141 , 1.0396017 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
+       "                       -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
+       "                        1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
+       "                        2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
+       "                       -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
+       "                       -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
+       "                       -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
+       "                       -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
+       "                       -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
+       "                        3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
+       "                        3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
+       "                        3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
+       "                        2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
+       "                       -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
+       "                       -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
+       "                        1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
+       "                        2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
+       "                       -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
+       "                       -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
+       "                       -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
+       "                       -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
+       "                        1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
+       "                        1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
+       "                       -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
+       "                       -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
+       "                       -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
+       "                        2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
+       "                        2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
+       "                       -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
+       "                       -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
+       "                       -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
+       "                        2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
+       "                       -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
+       "                       -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
+       "                       -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
+       "                        1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
+       "                       -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
+       "                       -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
+       "                       -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
+       "                        7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
+       "                        5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
+       "                        2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
+       "                        3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
+       "                        4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
+       "                       -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
+       "                       -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
+       "                       -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
+       "                        1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
+       "                        -0.01548608,  0.01052339],\n",
+       "                       [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
+       "                        -0.00281928, -0.00167585],\n",
+       "                       [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
+       "                        -0.03134314, -0.02594296],\n",
+       "                       ...,\n",
+       "                       [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
+       "                         0.04625429, -0.03096718],\n",
+       "                       [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
+       "                        -0.01003346, -0.00525536],\n",
+       "                       [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
+       "                        -0.01304786, -0.035545  ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
+       "                       -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
+       "                        5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
+       "                       -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
+       "                       -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
+       "                       -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
+       "                        9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
+       "                       -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
+       "                        4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
+       "                       -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
+       "                        1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
+       "                       -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
+       "                       -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
+       "                       -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
+       "                       -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
+       "                       -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
+       "                       -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
+       "                       -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
+       "                       -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
+       "                       -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
+       "                        1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
+       "                       -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
+       "                        6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
+       "                        1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
+       "                       -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
+       "                        4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
+       "                       -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
+       "                       -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
+       "                       -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
+       "                       -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
+       "                       -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
+       "                        2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
+       "                       -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
+       "                       -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
+       "                       -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
+       "                       -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
+       "                       -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
+       "                       -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
+       "                       -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
+       "                       -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
+       "                       -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
+       "                        1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
+       "                       -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
+       "                       -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
+       "                       -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
+       "                       -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
+       "                        3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
+       "                       -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
+       "                       -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
+       "                        1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
+       "                       -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
+       "                        1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
+       "                       -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
+       "                       -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
+       "                       -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
+       "                       -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
+       "                       -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
+       "                        5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
+       "                       -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
+       "                       -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
+       "                        1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
+       "                       -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
+       "                       -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
+       "                        5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
+       "                       -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
+       "                       -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
+       "                        1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
+       "                       -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
+       "                       -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
+       "                       -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
+       "                        4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
+       "                       -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
+       "                        6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
+       "                       -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
+       "                       -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
+       "                       -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
+       "                       -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
+       "                       -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
+       "                        2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
+       "                        1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
+       "                        1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
+       "                        2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
+       "                       -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
+       "                        1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
+       "                        1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
+       "                        1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
+       "                       -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
+       "                        3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
+       "                       -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
+       "                       -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
+       "                        3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
+       "                       -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
+       "                       -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
+       "                        7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
+       "                       -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
+       "                        9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
+       "                       -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
+       "                       -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
+       "                       -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
+       "                       -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
+       "                       -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
+       "                       -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
+       "                        1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
+       "                       -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
+       "                       -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
+       "                       -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
+       "                        1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
+       "                       -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
+       "                       -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
+       "                       -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
+       "                       -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
+       "                       -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
+       "                       -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
+       "                        1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
+       "                        7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
+       "                        9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
+       "                        1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
+       "                       -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
+       "                       -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
+       "                        6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
+       "                        1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
+       "                        8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
+       "                       -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
+       "                       -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
+       "                       -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
+       "                        1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
+       "                       -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
+       "                       -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
+       "                        1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
+       "                       -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
+       "                        2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
+       "                       -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
+       "                       -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
+       "                        5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
+       "                        9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
+       "                       -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
+       "                       -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
+       "                       -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
+       "                        1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
+       "                       -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
+       "                        2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
+       "                        2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
+       "                       -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
+       "                       -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
+       "                        9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
+       "                       -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
+       "                        2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
+       "                       -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
+       "                       -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
+       "                       -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
+       "                       -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
+       "                       -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
+       "                        4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
+       "                        1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
+       "                       -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
+       "                       -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
+       "                        5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
+       "                        2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
+       "                       -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
+       "                        9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
+       "                        1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
+       "                       -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
+       "                        5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
+       "                        1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
+       "                       -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
+       "                        6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
+       "                       -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
+       "                        2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
+       "                       -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
+       "                        5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
+       "                       -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
+       "                       -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
+       "                        1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
+       "                        8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
+       "                       -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
+       "                       -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
+       "                       -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
+       "                       -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
+       "                        9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
+       "                       -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
+       "                       -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
+       "                       -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
+       "                       -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
+       "                       -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
+       "                       -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
+       "                        3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
+       "                       -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
+       "                       -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
+       "                       -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
+       "                        1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
+       "                        5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
+       "                       -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
+       "                         0.02154048,  0.01009107],\n",
+       "                       [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
+       "                         0.02311078, -0.03246025],\n",
+       "                       [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
+       "                         0.00015564,  0.01200298],\n",
+       "                       ...,\n",
+       "                       [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
+       "                        -0.00044155, -0.00768675],\n",
+       "                       [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
+       "                         0.00462436,  0.00114423],\n",
+       "                       [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
+       "                         0.0192393 , -0.00191616]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
+       "                        0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
+       "                       -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
+       "                        0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
+       "                       -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
+       "                        0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
+       "                       -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
+       "                        0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
+       "                       -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
+       "                        0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
+       "                        0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
+       "                        0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
+       "                        0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
+       "                       -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
+       "                       -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
+       "                       -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
+       "                        0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
+       "                        0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
+       "                       -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
+       "                       -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
+       "                       -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
+       "                        0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
+       "                       -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
+       "                       -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
+       "                       -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
+       "                        0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
+       "                        0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
+       "                        0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
+       "                        0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
+       "                        0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
+       "                       -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
+       "                        0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
+       "                        0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
+       "                        0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
+       "                       -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
+       "                       -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
+       "                       -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
+       "                        0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
+       "                       -0.01684757, -0.00175023], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (2): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
+       "                       1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
+       "                       1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
+       "                       1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
+       "                       1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
+       "                       1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
+       "                       1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
+       "                       1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
+       "                       1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
+       "                       1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
+       "                       1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
+       "                       1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
+       "                       1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
+       "                       0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
+       "                       1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
+       "                       1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
+       "                       1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
+       "                       1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
+       "                       1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
+       "                       1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
+       "                       1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
+       "                       0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
+       "                       1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
+       "                       1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
+       "                       0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
+       "                       1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
+       "                       1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
+       "                       1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
+       "                       1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
+       "                       1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
+       "                       1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
+       "                       1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
+       "                       1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
+       "                       1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
+       "                       1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
+       "                       0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
+       "                       1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
+       "                       1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
+       "                       1.0048147 , 1.0276642 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
+       "                       -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
+       "                        3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
+       "                        6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
+       "                        6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
+       "                        7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
+       "                       -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
+       "                       -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
+       "                       -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
+       "                       -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
+       "                        1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
+       "                        9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
+       "                        3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
+       "                        9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
+       "                       -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
+       "                        1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
+       "                       -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
+       "                        5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
+       "                       -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
+       "                       -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
+       "                       -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
+       "                       -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
+       "                        8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
+       "                       -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
+       "                       -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
+       "                       -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
+       "                        1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
+       "                       -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
+       "                        8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
+       "                       -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
+       "                        3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
+       "                        2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
+       "                       -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
+       "                       -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
+       "                       -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
+       "                        2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
+       "                       -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
+       "                       -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
+       "                       -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
+       "                        9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
+       "                        7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
+       "                        6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
+       "                        1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
+       "                        9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
+       "                       -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
+       "                       -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
+       "                        2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
+       "                        1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
+       "                       -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
+       "                      [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
+       "                       -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
+       "                      [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
+       "                        1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
+       "                      ...,\n",
+       "                      [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
+       "                        2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
+       "                      [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
+       "                        9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
+       "                      [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
+       "                        1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
+       "              \n",
+       "                     [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
+       "                       -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
+       "                      [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
+       "                       -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
+       "                      [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
+       "                        3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
+       "                        3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
+       "                      [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
+       "                       -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
+       "                      [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
+       "                        1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
+       "              \n",
+       "                     [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
+       "                        8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
+       "                      [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
+       "                        3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
+       "                      [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
+       "                        5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
+       "                        8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
+       "                      [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
+       "                        1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
+       "                      [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
+       "                        2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
+       "                       -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
+       "                      [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
+       "                       -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
+       "                      [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
+       "                       -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
+       "                        3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
+       "                      [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
+       "                       -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
+       "                      [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
+       "                        1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
+       "              \n",
+       "                     [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
+       "                       -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
+       "                      [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
+       "                       -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
+       "                      [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
+       "                       -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
+       "                      ...,\n",
+       "                      [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
+       "                       -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
+       "                      [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
+       "                        1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
+       "                      [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
+       "                       -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
+       "              \n",
+       "                     [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
+       "                       -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
+       "                      [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
+       "                       -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
+       "                      [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
+       "                        7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
+       "                        8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
+       "                      [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
+       "                       -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
+       "                      [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
+       "                       -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
+       "                        0.00220658, -0.01070606],\n",
+       "                      [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
+       "                       -0.03522046,  0.00336731],\n",
+       "                      [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
+       "                       -0.02712567, -0.00692069],\n",
+       "                      ...,\n",
+       "                      [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
+       "                        0.00351168, -0.01507777],\n",
+       "                      [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
+       "                        0.01558526, -0.00548268],\n",
+       "                      [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
+       "                       -0.01862272,  0.00915155]],\n",
+       "              \n",
+       "                     [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
+       "                       -0.05951536, -0.01053701],\n",
+       "                      [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
+       "                        0.04455427, -0.03069338],\n",
+       "                      [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
+       "                        0.017482  ,  0.02697489],\n",
+       "                      ...,\n",
+       "                      [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
+       "                        0.04024338, -0.0384163 ],\n",
+       "                      [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
+       "                        0.00090393,  0.01484353],\n",
+       "                      [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
+       "                       -0.01938148, -0.00959876]],\n",
+       "              \n",
+       "                     [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
+       "                        0.01978015,  0.00669768],\n",
+       "                      [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
+       "                       -0.02788975,  0.04276541],\n",
+       "                      [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
+       "                       -0.0080095 , -0.04260714],\n",
+       "                      ...,\n",
+       "                      [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
+       "                        0.02074965, -0.03320842],\n",
+       "                      [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
+       "                        0.00745646, -0.01764916],\n",
+       "                      [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
+       "                        0.02713079, -0.02098218]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
+       "                        0.00773418,  0.0028765 ],\n",
+       "                      [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
+       "                        0.01953993, -0.00055485],\n",
+       "                      [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
+       "                        0.00128055, -0.01244337],\n",
+       "                      ...,\n",
+       "                      [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
+       "                       -0.03074895,  0.02474623],\n",
+       "                      [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
+       "                        0.01141954, -0.00754204],\n",
+       "                      [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
+       "                       -0.02091517,  0.02028517]],\n",
+       "              \n",
+       "                     [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
+       "                        0.00690144, -0.0624721 ],\n",
+       "                      [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
+       "                        0.00672527,  0.04417474],\n",
+       "                      [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
+       "                        0.01875504, -0.01086921],\n",
+       "                      ...,\n",
+       "                      [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
+       "                        0.02842108, -0.02001433],\n",
+       "                      [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
+       "                       -0.03791892,  0.05297501],\n",
+       "                      [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
+       "                       -0.0426075 ,  0.04186616]],\n",
+       "              \n",
+       "                     [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
+       "                       -0.05163334, -0.02703283],\n",
+       "                      [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
+       "                        0.03730771, -0.01465937],\n",
+       "                      [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
+       "                        0.00054794,  0.0272242 ],\n",
+       "                      ...,\n",
+       "                      [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
+       "                        0.0433554 , -0.05423561],\n",
+       "                      [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
+       "                        0.01977414, -0.02690084],\n",
+       "                      [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
+       "                        0.00156149, -0.00067797]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
+       "                        0.0309326 , -0.01376203],\n",
+       "                      [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
+       "                       -0.00639856,  0.01343099],\n",
+       "                      [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
+       "                       -0.02740676,  0.00521749],\n",
+       "                      ...,\n",
+       "                      [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
+       "                       -0.02067197,  0.02215986],\n",
+       "                      [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
+       "                        0.01457549, -0.02071035],\n",
+       "                      [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
+       "                       -0.03342215, -0.00695839]],\n",
+       "              \n",
+       "                     [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
+       "                       -0.01388015, -0.05727502],\n",
+       "                      [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
+       "                        0.02744391, -0.00661899],\n",
+       "                      [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
+       "                        0.00024902,  0.00248078],\n",
+       "                      ...,\n",
+       "                      [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
+       "                       -0.03614037, -0.00738423],\n",
+       "                      [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
+       "                        0.01113886,  0.02501536],\n",
+       "                      [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
+       "                       -0.00661571, -0.03333431]],\n",
+       "              \n",
+       "                     [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
+       "                       -0.00927628,  0.00616596],\n",
+       "                      [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
+       "                        0.00871206, -0.05778804],\n",
+       "                      [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
+       "                        0.02836852, -0.04284712],\n",
+       "                      ...,\n",
+       "                      [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
+       "                       -0.01772935,  0.00616858],\n",
+       "                      [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
+       "                       -0.01613746, -0.03987672],\n",
+       "                      [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
+       "                        0.01645808, -0.03744602]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
+       "                        0.05795961, -0.02054776],\n",
+       "                      [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
+       "                        0.03733749,  0.00026225],\n",
+       "                      [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
+       "                       -0.00190235, -0.00399782],\n",
+       "                      ...,\n",
+       "                      [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
+       "                        0.03480022, -0.01587555],\n",
+       "                      [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
+       "                       -0.02998798, -0.03450729],\n",
+       "                      [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
+       "                        0.00860727,  0.02687717]],\n",
+       "              \n",
+       "                     [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
+       "                        0.04437737, -0.03391603],\n",
+       "                      [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
+       "                        0.03200765,  0.06134365],\n",
+       "                      [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
+       "                       -0.01228396,  0.01346244],\n",
+       "                      ...,\n",
+       "                      [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
+       "                        0.05700811,  0.00101427],\n",
+       "                      [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
+       "                        0.02314062,  0.01037679],\n",
+       "                      [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
+       "                        0.01851269, -0.00904128]],\n",
+       "              \n",
+       "                     [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
+       "                       -0.02365098,  0.01838909],\n",
+       "                      [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
+       "                        0.0036391 , -0.01013733],\n",
+       "                      [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
+       "                       -0.0331871 ,  0.01334788],\n",
+       "                      ...,\n",
+       "                      [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
+       "                       -0.02920299, -0.00677245],\n",
+       "                      [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
+       "                       -0.00327538,  0.00982734],\n",
+       "                      [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
+       "                        0.02140583, -0.05328723]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
+       "                       -0.03472243,  0.01304346],\n",
+       "                      [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
+       "                        0.01706363,  0.0169379 ],\n",
+       "                      [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
+       "                       -0.03150146,  0.02959211],\n",
+       "                      ...,\n",
+       "                      [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
+       "                       -0.0315103 ,  0.04004923],\n",
+       "                      [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
+       "                        0.00454007,  0.01773539],\n",
+       "                      [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
+       "                       -0.00716398,  0.0511735 ]],\n",
+       "              \n",
+       "                     [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
+       "                       -0.01024133, -0.0456225 ],\n",
+       "                      [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
+       "                        0.02512117,  0.02159863],\n",
+       "                      [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
+       "                        0.02156329, -0.00495635],\n",
+       "                      ...,\n",
+       "                      [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
+       "                       -0.03669459, -0.01169418],\n",
+       "                      [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
+       "                        0.01682055,  0.00250151],\n",
+       "                      [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
+       "                       -0.02213018, -0.00444395]],\n",
+       "              \n",
+       "                     [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
+       "                       -0.04441076,  0.02999873],\n",
+       "                      [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
+       "                        0.00269448, -0.02619188],\n",
+       "                      [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
+       "                        0.05100081, -0.00196214],\n",
+       "                      ...,\n",
+       "                      [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
+       "                        0.00641817, -0.00452846],\n",
+       "                      [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
+       "                       -0.0210044 , -0.00747442],\n",
+       "                      [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
+       "                        0.02690425,  0.01807844]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
+       "                        0.00344581, -0.00462025],\n",
+       "                      [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
+       "                       -0.03860147, -0.0139975 ],\n",
+       "                      [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
+       "                        0.03558432, -0.01965741],\n",
+       "                      ...,\n",
+       "                      [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
+       "                        0.02486686, -0.02093521],\n",
+       "                      [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
+       "                       -0.00058519, -0.02835972],\n",
+       "                      [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
+       "                       -0.01785722, -0.04314538]],\n",
+       "              \n",
+       "                     [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
+       "                       -0.02838681, -0.0039719 ],\n",
+       "                      [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
+       "                        0.04732952, -0.02382375],\n",
+       "                      [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
+       "                       -0.00022519, -0.07195798],\n",
+       "                      ...,\n",
+       "                      [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
+       "                        0.04077799, -0.03013852],\n",
+       "                      [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
+       "                        0.01461129,  0.01385937],\n",
+       "                      [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
+       "                        0.03261755,  0.00980215]],\n",
+       "              \n",
+       "                     [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
+       "                        0.02765293, -0.03892074],\n",
+       "                      [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
+       "                       -0.01858809, -0.01930472],\n",
+       "                      [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
+       "                       -0.02284159, -0.00387958],\n",
+       "                      ...,\n",
+       "                      [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
+       "                       -0.02290132, -0.00165214],\n",
+       "                      [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
+       "                        0.00613669, -0.02693458],\n",
+       "                      [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
+       "                        0.01223021, -0.01266978]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
+       "                       -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
+       "                      [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
+       "                        1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
+       "                      [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
+       "                       -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
+       "                      ...,\n",
+       "                      [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
+       "                       -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
+       "                      [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
+       "                        5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
+       "                      [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
+       "                       -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
+       "              \n",
+       "                     [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
+       "                       -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
+       "                      [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
+       "                        1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
+       "                      [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
+       "                       -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
+       "                      ...,\n",
+       "                      [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
+       "                        2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
+       "                      [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
+       "                        4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
+       "                      [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
+       "                       -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
+       "              \n",
+       "                     [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
+       "                       -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
+       "                      [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
+       "                        9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
+       "                      [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
+       "                       -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
+       "                      ...,\n",
+       "                      [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
+       "                       -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
+       "                      [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
+       "                        4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
+       "                      [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
+       "                       -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
+       "                       -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
+       "                      [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
+       "                       -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
+       "                      [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
+       "                       -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
+       "                        3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
+       "                      [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
+       "                       -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
+       "                      [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
+       "                       -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
+       "              \n",
+       "                     [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
+       "                       -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
+       "                      [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
+       "                       -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
+       "                      [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
+       "                       -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
+       "                      ...,\n",
+       "                      [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
+       "                       -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
+       "                      [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
+       "                        9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
+       "                      [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
+       "                       -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
+       "              \n",
+       "                     [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
+       "                        1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
+       "                      [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
+       "                        2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
+       "                      [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
+       "                       -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
+       "                      ...,\n",
+       "                      [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
+       "                       -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
+       "                      [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
+       "                        2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
+       "                      [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
+       "                        1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
+       "                      -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
+       "                       0.25756484, -0.24836208],\n",
+       "                     [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
+       "                      -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
+       "                      -0.24733196,  0.22796093],\n",
+       "                     [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
+       "                       0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
+       "                       0.23860171,  0.2544802 ],\n",
+       "                     [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
+       "                      -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
+       "                       0.23467393, -0.2685565 ],\n",
+       "                     [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
+       "                       0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
+       "                      -0.19225396, -0.22171909],\n",
+       "                     [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
+       "                       0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
+       "                       0.26866576, -0.2760028 ],\n",
+       "                     [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
+       "                      -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
+       "                      -0.18015033,  0.23062935],\n",
+       "                     [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
+       "                      -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
+       "                      -0.15671346,  0.17406578],\n",
+       "                     [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
+       "                       0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
+       "                      -0.31668597,  0.30160227],\n",
+       "                     [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
+       "                      -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
+       "                       0.25486085,  0.24394904],\n",
+       "                     [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
+       "                      -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
+       "                      -0.11399411, -0.11268682],\n",
+       "                     [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
+       "                      -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
+       "                      -0.20129874, -0.27945545],\n",
+       "                     [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
+       "                      -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
+       "                       0.2934034 ,  0.27473462],\n",
+       "                     [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
+       "                       0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
+       "                      -0.13622668,  0.14556718],\n",
+       "                     [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
+       "                      -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
+       "                      -0.13565728,  0.12855493],\n",
+       "                     [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
+       "                      -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
+       "                      -0.20797041,  0.21802594]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
+       "                       0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
+       "                      -0.05300143,  0.05010788],\n",
+       "                     [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
+       "                       0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
+       "                      -0.00520796,  0.01617681],\n",
+       "                     [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
+       "                      -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
+       "                      -0.00890318, -0.02950851],\n",
+       "                     [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
+       "                       0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
+       "                      -0.06212043,  0.10200542],\n",
+       "                     [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
+       "                       0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
+       "                      -0.05677698, -0.02087275],\n",
+       "                     [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
+       "                      -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
+       "                      -0.07872038,  0.08625405],\n",
+       "                     [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
+       "                       0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
+       "                      -0.048445  , -0.01480543],\n",
+       "                     [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
+       "                      -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
+       "                      -0.00965995,  0.03196143],\n",
+       "                     [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
+       "                      -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
+       "                       0.1498203 , -0.13828841],\n",
+       "                     [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
+       "                       0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
+       "                      -0.04235039, -0.03586181],\n",
+       "                     [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
+       "                       0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
+       "                      -0.02627585, -0.02604468],\n",
+       "                     [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
+       "                       0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
+       "                      -0.05779656,  0.01974249],\n",
+       "                     [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
+       "                       0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
+       "                      -0.05779454, -0.10485042],\n",
+       "                     [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
+       "                      -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
+       "                      -0.04531232,  0.04370135],\n",
+       "                     [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
+       "                      -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
+       "                      -0.03735423,  0.03250728],\n",
+       "                     [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
+       "                      -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
+       "                      -0.02965603,  0.01923521]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
+       "                       -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
+       "                       -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
+       "                       -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
+       "                      [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
+       "                       -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
+       "                        1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
+       "                       -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
+       "                      [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
+       "                        9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
+       "                        1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
+       "                       -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
+       "                      [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
+       "                        5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
+       "                        6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
+       "                        8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
+       "                      [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
+       "                        9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
+       "                        8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
+       "                        3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
+       "                      [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
+       "                       -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
+       "                       -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
+       "                       -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
+       "                      [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
+       "                       -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
+       "                        2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
+       "                        1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
+       "                      [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
+       "                       -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
+       "                        1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
+       "                        3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
+       "                      [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
+       "                        1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
+       "                        4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
+       "                        1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
+       "                      [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
+       "                        1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
+       "                       -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
+       "                        6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
+       "                      [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
+       "                       -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
+       "                       -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
+       "                        3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
+       "                      [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
+       "                       -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
+       "                        4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
+       "                       -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
+       "                      [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
+       "                        1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
+       "                       -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
+       "                       -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
+       "                      [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
+       "                       -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
+       "                        1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
+       "                       -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
+       "                      [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
+       "                        6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
+       "                       -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
+       "                       -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
+       "                      [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
+       "                        1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
+       "                        7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
+       "                       -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
+       "              \n",
+       "                     [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
+       "                        1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
+       "                       -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
+       "                        1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
+       "                      [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
+       "                       -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
+       "                       -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
+       "                       -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
+       "                      [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
+       "                       -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
+       "                        5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
+       "                       -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
+       "                      [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
+       "                        1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
+       "                        1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
+       "                       -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
+       "                      [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
+       "                       -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
+       "                        1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
+       "                        1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
+       "                      [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
+       "                       -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
+       "                        2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
+       "                       -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
+       "                      [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
+       "                       -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
+       "                        3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
+       "                        9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
+       "                      [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
+       "                        2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
+       "                       -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
+       "                       -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
+       "                      [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
+       "                        1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
+       "                        1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
+       "                       -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
+       "                      [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
+       "                        6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
+       "                       -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
+       "                       -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
+       "                      [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
+       "                        2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
+       "                        6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
+       "                       -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
+       "                      [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
+       "                        1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
+       "                        1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
+       "                        5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
+       "                      [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
+       "                        5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
+       "                        8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
+       "                       -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
+       "                      [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
+       "                        6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
+       "                        9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
+       "                        5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
+       "                      [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
+       "                       -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
+       "                       -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
+       "                       -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
+       "                      [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
+       "                        5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
+       "                       -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
+       "                        2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
+       "                       1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
+       "                       1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
+       "                       1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
+       "                       1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
+       "                       1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
+       "                       1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
+       "                       1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
+       "                       1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
+       "                       1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
+       "                       1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
+       "                       1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
+       "                       1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
+       "                       1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
+       "                       1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
+       "                       1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
+       "                       1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
+       "                       1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
+       "                       1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
+       "                       1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
+       "                       1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
+       "                       1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
+       "                       1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
+       "                       1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
+       "                       1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
+       "                       1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
+       "                       1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
+       "                       1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
+       "                       1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
+       "                       1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
+       "                       1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
+       "                       1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
+       "                       1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
+       "                       1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
+       "                       1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
+       "                       1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
+       "                       1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
+       "                       1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
+       "                       1.1591135 , 1.1882532 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
+       "                       -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
+       "                       -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
+       "                        0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
+       "                        0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
+       "                        0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
+       "                       -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
+       "                       -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
+       "                        0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
+       "                       -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
+       "                        0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
+       "                        0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
+       "                       -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
+       "                       -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
+       "                       -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
+       "                        0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
+       "                       -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
+       "                       -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
+       "                       -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
+       "                        0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
+       "                       -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
+       "                        0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
+       "                       -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
+       "                        0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
+       "                       -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
+       "                       -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
+       "                        0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
+       "                        0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
+       "                        0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
+       "                        0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
+       "                       -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
+       "                       -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
+       "                        0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
+       "                        0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
+       "                        0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
+       "                       -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
+       "                       -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
+       "                        0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
+       "                       -0.00908286,  0.01659943], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
+       "                         0.01224422, -0.00072175],\n",
+       "                       [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
+       "                         0.01419899, -0.0136291 ],\n",
+       "                       [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
+       "                        -0.0128223 ,  0.00386102],\n",
+       "                       ...,\n",
+       "                       [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
+       "                        -0.00466742, -0.02921941],\n",
+       "                       [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
+       "                        -0.00111932,  0.02714985],\n",
+       "                       [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
+       "                         0.01096694, -0.02088788]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
+       "                        9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
+       "                       -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
+       "                       -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
+       "                       -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
+       "                       -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
+       "                       -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
+       "                        2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
+       "                       -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
+       "                       -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
+       "                       -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
+       "                       -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
+       "                       -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
+       "                        2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
+       "                       -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
+       "                       -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
+       "                       -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
+       "                       -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
+       "                       -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
+       "                        1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
+       "                       -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
+       "                       -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
+       "                       -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
+       "                       -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
+       "                       -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
+       "                       -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
+       "                       -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
+       "                       -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
+       "                       -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
+       "                       -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
+       "                       -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
+       "                       -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
+       "                       -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
+       "                       -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
+       "                       -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
+       "                       -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
+       "                        1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
+       "                       -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
+       "                       -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
+       "                       -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
+       "                       -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
+       "                        2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
+       "                       -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
+       "                       -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
+       "                       -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
+       "                       -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
+       "                       -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
+       "                        4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
+       "                       -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
+       "                       -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
+       "                        1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
+       "                       -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
+       "                       -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
+       "                       -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
+       "                       -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
+       "                        2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
+       "                       -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
+       "                       -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
+       "                       -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
+       "                       -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
+       "                       -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
+       "                       -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
+       "                       -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
+       "                        1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
+       "                       -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
+       "                       -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
+       "                       -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
+       "                        1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
+       "                       -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
+       "                        5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
+       "                       -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
+       "                        1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
+       "                       -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
+       "                        5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
+       "                       -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
+       "                        4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
+       "                       -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
+       "                       -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
+       "                       -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
+       "                       -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
+       "                       -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
+       "                       -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
+       "                       -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
+       "                       -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
+       "                        6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
+       "                        7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
+       "                       -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
+       "                       -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
+       "                       -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
+       "                        1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
+       "                        7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
+       "                       -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
+       "                       -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
+       "                       -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
+       "                       -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
+       "                       -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
+       "                       -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
+       "                        9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
+       "                       -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
+       "                       -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
+       "                       -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
+       "                       -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
+       "                       -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
+       "                       -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
+       "                       -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
+       "                        2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
+       "                       -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
+       "                       -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
+       "                       -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
+       "                       -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
+       "                       -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
+       "                       -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
+       "                       -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
+       "                       -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
+       "                        1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
+       "                       -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
+       "                        1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
+       "                       -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
+       "                       -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
+       "                        5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
+       "                       -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
+       "                       -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
+       "                       -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
+       "                       -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
+       "                        1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
+       "                        6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
+       "                       -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
+       "                       -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
+       "                       -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
+       "                       -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
+       "                       -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
+       "                       -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
+       "                       -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
+       "                       -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
+       "                       -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
+       "                       -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
+       "                       -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
+       "                       -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
+       "                       -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
+       "                       -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
+       "                       -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
+       "                        1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
+       "                       -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
+       "                       -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
+       "                       -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
+       "                       -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
+       "                        2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
+       "                        2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
+       "                       -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
+       "                        1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
+       "                        2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
+       "                       -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
+       "                        7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
+       "                       -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
+       "                       -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
+       "                        3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
+       "                       -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
+       "                       -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
+       "                        1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
+       "                        8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
+       "                       -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
+       "                       -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
+       "                        3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
+       "                       -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
+       "                       -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
+       "                       -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
+       "                       -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
+       "                       -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
+       "                       -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
+       "                       -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
+       "                       -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
+       "                       -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
+       "                       -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
+       "                       -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
+       "                       -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
+       "                       -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
+       "                       -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
+       "                       -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
+       "                       -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
+       "                       -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
+       "                        1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
+       "                       -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
+       "                       -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
+       "                       -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
+       "                       -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
+       "                       -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
+       "                       -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
+       "                       -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
+       "                       -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
+       "                       -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
+       "                       -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
+       "                        7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
+       "                        -0.00371265,  0.03133386],\n",
+       "                       [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
+       "                         0.01188842, -0.0047044 ],\n",
+       "                       [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
+       "                         0.0055303 ,  0.00608071],\n",
+       "                       ...,\n",
+       "                       [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
+       "                        -0.00608842, -0.00880447],\n",
+       "                       [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
+       "                        -0.0024398 ,  0.01270658],\n",
+       "                       [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
+       "                         0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
+       "                        4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
+       "                       -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
+       "                        6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
+       "                       -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
+       "                        7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
+       "                        1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
+       "                        4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
+       "                       -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
+       "                       -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
+       "                        6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
+       "                        2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
+       "                        8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
+       "                        5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
+       "                       -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
+       "                       -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
+       "                        8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
+       "                       -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
+       "                       -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
+       "                        1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
+       "                        1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
+       "                       -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
+       "                        1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
+       "                       -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
+       "                       -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
+       "                       -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
+       "                       -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
+       "                       -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
+       "                        9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
+       "                        8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
+       "                       -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
+       "                       -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
+       "                       -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
+       "                       -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
+       "                        1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
+       "                       -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
+       "                       -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
+       "                        2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
+       "                        7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
+       "                        1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
+       "                        5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
+       "                       -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
+       "                        2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
+       "                        6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
+       "                       -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
+       "                       -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
+       "                        5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
+       "                        1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (dropout): Dropout(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_kwargs): Dict(\n",
+       "          (name): 'transformer'\n",
+       "          (trainable): True\n",
+       "          (dtype): 'float32'\n",
+       "        )\n",
+       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "        array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
+       "                 -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
+       "                  6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
+       "                 -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
+       "                  7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
+       "                 -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
+       "                 -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
+       "                 -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
+       "                 -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
+       "                  4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
+       "                  1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
+       "                 -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
+       "                  1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
+       "                  2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
+       "                 -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
+       "                 -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
+       "                 -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
+       "                 -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
+       "                  7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
+       "                 -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
+       "                 -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
+       "                 -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
+       "                  1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
+       "                 -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
+       "                 -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
+       "                  1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
+       "                 -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
+       "                 -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
+       "                 -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
+       "                 -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
+       "                 -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
+       "                 -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
+       "                 -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
+       "                  4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
+       "                 -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
+       "                  6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
+       "                 -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
+       "                 -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
+       "                  5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
+       "                 -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
+       "                 -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
+       "                  1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
+       "                  1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
+       "                  1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
+       "                  1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
+       "                 -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
+       "                  3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
+       "                  3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
+       "                  7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
+       "                 -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
+       "                 -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
+       "                  2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
+       "                  9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
+       "                  1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
+       "                 -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
+       "                  1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
+       "                  1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
+       "                 -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
+       "                 -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
+       "                 -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
+       "                  2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
+       "                 -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
+       "                  1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
+       "                  4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
+       "              dtype=float32)>\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_pre): PrepareTransformerInputs(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_post): LastHiddenState(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_post): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): TransformerOutputToRagged(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TransformerInferenceHiddenState(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_pre): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): SequenceCausalLastInference(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): ExtractMaskFromTargets(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "  )\n",
+       "  (signatures): _SignatureMap({'serving_default': <ConcreteFunction signature_wrapper(*, sess_pid_seq__offsets, sess_pid_seq__values) at 0x7FC36CD996D0>})\n",
+       ")"
+      ]
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.load('t4rec_model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "2f5a7984",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.loader.tensorflow import Loader"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "dc4df316",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dataloader/tensorflow.py:65: UserWarning: Due to a CUDA memory alignment issue in some Tensorflow operations such as Embedding ops, we recommend that 'batch_size' be at least 16 and also a power of two. Please change 'batch_size' to a number that is a power of two that is greater than or equal to 16.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "loader = Loader(valid, batch_size=1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "f3bfca3f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "it = iter(loader)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 14,
-   "id": "3116726e",
+   "execution_count": 23,
+   "id": "7e1b9bbc",
    "metadata": {},
    "outputs": [],
    "source": [
-    "# cat rees46_schema_modified.pbtxt"
+    "while True:\n",
+    "    b = next(it)\n",
+    "    if b[0]['sess_pid_seq__offsets'].numpy()[1] == 20:\n",
+    "        break"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 15,
-   "id": "69e8f95c",
+   "execution_count": 24,
+   "id": "7ee5f149",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "({'sess_pid_seq__values': <tf.Tensor: shape=(20,), dtype=int32, numpy=\n",
+       "  array([ 204,  241,  506, 1105, 1851, 1720,  497,  685, 2197, 2575, 2508,\n",
+       "         1450, 1493, 2365, 2086, 3363, 8740, 5932, 2748, 5932], dtype=int32)>,\n",
+       "  'sess_pid_seq__offsets': <tf.Tensor: shape=(2,), dtype=int32, numpy=array([ 0, 20], dtype=int32)>},\n",
+       " None)"
+      ]
+     },
+     "execution_count": 24,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "# %%writefile rees46_schema_modified_2.pbtxt\n",
-    "\n",
-    "# feature {\n",
-    "#   name: \"seq\"\n",
-    "#   value_count {\n",
-    "#     min: 2\n",
-    "#   }\n",
-    "#   type: INT\n",
-    "#   int_domain {\n",
-    "#     name: \"seq\"\n",
-    "#     min: 1\n",
-    "#     max: 390000\n",
-    "#     is_categorical: true\n",
-    "#   }\n",
-    "#   annotation {\n",
-    "#     tag: \"item_id\"\n",
-    "#     tag: \"list\"\n",
-    "#     tag: \"categorical\"\n",
-    "#     tag: \"item\"\n",
-    "#   }\n",
-    "# }"
+    "b"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
-   "id": "a6ade14a",
+   "execution_count": 25,
+   "id": "81d2b071",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "50.1 ms ± 78.3 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)\n"
+     ]
+    }
+   ],
    "source": [
-    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
-    "\n",
-    "def get_model():\n",
-    "    mlp_block = mm.MLPBlock(\n",
-    "                    [d_model],\n",
-    "                    activation='relu',\n",
-    "                    no_activation_last_layer=True,\n",
-    "                )\n",
+    "%%timeit\n",
     "\n",
-    "    schema = TensorflowMetadata.from_proto_text_file(\n",
-    "        './',\n",
-    "        file_name='rees46_schema_modified.pbtxt'\n",
-    "    ).to_merlin_schema()\n",
-    "\n",
-    "    train.schema = schema\n",
-    "    \n",
-    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
-    "    input_block = mm.InputBlockV2(\n",
-    "        schema_model,\n",
-    "        categorical=mm.Embeddings(\n",
-    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
-    "                dim=item_embedding_dim,\n",
-    "                sequence_combiner=None,\n",
-    "            )\n",
-    "        )\n",
-    "\n",
-    "    train.schema = train.schema.select_by_name(seq_name)\n",
-    "\n",
-    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
-    "\n",
-    "    dense_block = mm.SequentialBlock(\n",
-    "        input_block,\n",
-    "        mlp_block,\n",
-    "        xlnet_block\n",
-    "    )\n",
-    "\n",
-    "    mlp_block2 = mm.MLPBlock(\n",
-    "                    [item_embedding_dim],\n",
-    "                    activation='relu',\n",
-    "                    no_activation_last_layer=True,\n",
-    "                )\n",
-    "\n",
-    "    prediction_task = mm.CategoricalOutput(\n",
-    "        to_call=input_block[\"categorical\"][target],\n",
-    "    )\n",
-    "\n",
-    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
-    "\n",
-    "    optimizer = tf.keras.optimizers.Adam(\n",
-    "        learning_rate=learning_rate,\n",
-    "    )\n",
-    "\n",
-    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
-    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
-    "                 )\n",
-    "    return model_transformer, xlnet_block"
+    "model_transformer.predict_step(b)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 17,
-   "id": "523fe2ac",
+   "execution_count": 26,
+   "id": "7b24e7fa",
    "metadata": {},
    "outputs": [
     {
-     "name": "stderr",
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n",
-      "2023-04-13 11:21:38.342588: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+      "297 ms ± 753 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)\n"
      ]
-    },
+    }
+   ],
+   "source": [
+    "%%timeit\n",
+    "\n",
+    "with tf.device('/cpu:0'):\n",
+    "    model_transformer.predict_step(b)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 27,
+   "id": "5bd66ba8",
+   "metadata": {},
+   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 106s 144ms/step - loss: 7.3129 - recall_at_20: 0.1424 - mrr_at_20: 0.0802 - ndcg_at_20: 0.0939 - map_at_20: 0.0802 - precision_at_20: 0.0071 - regularization_loss: 0.0000e+00 - loss_batch: 7.3149\n",
-      "84/84 [==============================] - 4s 27ms/step - loss: 8.5848 - recall_at_20: 0.2229 - mrr_at_20: 0.0736 - ndcg_at_20: 0.1066 - map_at_20: 0.0736 - precision_at_20: 0.0111 - regularization_loss: 0.0000e+00 - loss_batch: 8.5971\n"
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
      ]
     },
     {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.584781646728516,\n",
-       " 'recall_at_20': 0.2308632731437683,\n",
-       " 'mrr_at_20': 0.07471762597560883,\n",
-       " 'ndcg_at_20': 0.10908268392086029,\n",
-       " 'map_at_20': 0.07471762597560883,\n",
-       " 'precision_at_20': 0.011543160304427147,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 9.130510330200195}"
-      ]
-     },
-     "execution_count": 17,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "model_transformer, xlnet_block = get_model()\n",
-    "model_transformer.fit(\n",
-    "    train,\n",
-    "    batch_size=batch_size,\n",
-    "    epochs=n_epoch,\n",
-    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
-    ")\n",
-    "\n",
-    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
-    "model_transformer.evaluate(\n",
-    "    valid,\n",
-    "    batch_size=batch_size,\n",
-    "    pre=predict_last,\n",
-    "    return_dict=True\n",
-    ")\n",
-    "\n",
-    "# model_transformer.save('t4rec_model')"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 18,
-   "id": "5bd66ba8",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
+     "name": "stderr",
      "output_type": "stream",
      "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
       "  (_feature_shapes): Dict(\n",
       "    (sess_pid_seq): TensorShape([128, None, 1])\n",
       "  )\n",
       "  (_feature_dtypes): Dict(\n",
       "    (sess_pid_seq): tf.int32\n",
       "  )\n",
-      "), because it is not built.\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
       "  (_feature_shapes): Dict(\n",
       "    (sess_pid_seq): TensorShape([128, None, 1])\n",
@@ -724,7 +13835,13 @@
       "  (_feature_dtypes): Dict(\n",
       "    (sess_pid_seq): tf.int32\n",
       "  )\n",
-      "), because it is not built.\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
       "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
       "  (_feature_shapes): Dict(\n",
       "    (sess_pid_seq): TensorShape([128, None, 1])\n",
@@ -732,7 +13849,13 @@
       "  (_feature_dtypes): Dict(\n",
       "    (sess_pid_seq): tf.int32\n",
       "  )\n",
-      "), because it is not built.\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
       "  (_feature_shapes): Dict(\n",
       "    (sess_pid_seq): TensorShape([128, None, 1])\n",
@@ -747,6 +13870,14 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
       "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
      ]
     },
@@ -754,15 +13885,15 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "INFO:tensorflow:Assets written to: /tmp/tmpkph1f3_r/model.savedmodel/assets\n"
+      "INFO:tensorflow:Assets written to: /tmp/tmpvsz5e5b2/model.savedmodel/assets\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "INFO:tensorflow:Assets written to: /tmp/tmpkph1f3_r/model.savedmodel/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:100: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "INFO:tensorflow:Assets written to: /tmp/tmpvsz5e5b2/model.savedmodel/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
       "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
       "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
       "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
@@ -816,7 +13947,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 19,
+   "execution_count": 33,
    "id": "3ef1e5fc",
    "metadata": {},
    "outputs": [],
@@ -830,7 +13961,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 20,
+   "execution_count": 28,
    "id": "e2a7b6ee",
    "metadata": {},
    "outputs": [],
@@ -843,7 +13974,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 21,
+   "execution_count": 29,
    "id": "55ad012c",
    "metadata": {},
    "outputs": [
@@ -884,7 +14015,7 @@
        "    <tr>\n",
        "      <th>0</th>\n",
        "      <td>sess_pid_seq</td>\n",
-       "      <td>(Tags.CATEGORICAL, Tags.ITEM, Tags.ID, Tags.IT...</td>\n",
+       "      <td>(Tags.LIST, Tags.ITEM_ID, Tags.CATEGORICAL, Ta...</td>\n",
        "      <td>DType(name='int64', element_type=&lt;ElementType....</td>\n",
        "      <td>True</td>\n",
        "      <td>True</td>\n",
@@ -899,10 +14030,10 @@
        "</div>"
       ],
       "text/plain": [
-       "[{'name': 'sess_pid_seq', 'tags': {<Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>, <Tags.ITEM_ID: 'item_id'>, <Tags.LIST: 'list'>}, 'properties': {'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), 'is_list': True, 'is_ragged': True}]"
+       "[{'name': 'sess_pid_seq', 'tags': {<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, 'properties': {'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), 'is_list': True, 'is_ragged': True}]"
       ]
      },
-     "execution_count": 21,
+     "execution_count": 29,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -913,7 +14044,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 22,
+   "execution_count": 30,
    "id": "1a39b4f8",
    "metadata": {},
    "outputs": [
@@ -1042,7 +14173,7 @@
      "output_type": "stream",
      "text": [
       "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:100: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
       "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
       "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
       "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
@@ -1078,35 +14209,17 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 23,
-   "id": "1720a5af",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "ls: cannot access '/workspace/models_for_benchmarking/1': No such file or directory\r\n"
-     ]
-    }
-   ],
-   "source": [
-    "ls /workspace/models_for_benchmarking/1"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 24,
+   "execution_count": 31,
    "id": "d7cdc6cc",
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "<subprocess.Popen at 0x7fd4c501f0a0>"
+       "<subprocess.Popen at 0x7fc2ffc722b0>"
       ]
      },
-     "execution_count": 24,
+     "execution_count": 31,
      "metadata": {},
      "output_type": "execute_result"
     },
@@ -1114,89 +14227,88 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "I0413 11:24:28.716029 1527 pinned_memory_manager.cc:240] Pinned memory pool is created at '0x7f7f2a000000' with size 268435456\n",
-      "I0413 11:24:28.716361 1527 cuda_memory_manager.cc:105] CUDA memory pool is created on device 0 with size 67108864\n",
-      "I0413 11:24:28.718446 1527 model_lifecycle.cc:459] loading: 0_transformworkflowtriton:1\n",
-      "I0413 11:24:28.718465 1527 model_lifecycle.cc:459] loading: 1_predicttensorflowtriton:1\n",
-      "I0413 11:24:28.718478 1527 model_lifecycle.cc:459] loading: executor_model:1\n",
-      "I0413 11:24:28.924940 1527 tensorflow.cc:2536] TRITONBACKEND_Initialize: tensorflow\n",
-      "I0413 11:24:28.924955 1527 tensorflow.cc:2546] Triton TRITONBACKEND API version: 1.10\n",
-      "I0413 11:24:28.924960 1527 tensorflow.cc:2552] 'tensorflow' TRITONBACKEND API version: 1.10\n",
-      "I0413 11:24:28.924962 1527 tensorflow.cc:2576] backend configuration:\n",
+      "I0509 01:55:17.511153 1205 pinned_memory_manager.cc:240] Pinned memory pool is created at '0x7ff516000000' with size 268435456\n",
+      "I0509 01:55:17.511472 1205 cuda_memory_manager.cc:105] CUDA memory pool is created on device 0 with size 67108864\n",
+      "I0509 01:55:17.513574 1205 model_lifecycle.cc:459] loading: executor_model:1\n",
+      "I0509 01:55:17.513595 1205 model_lifecycle.cc:459] loading: 0_transformworkflowtriton:1\n",
+      "I0509 01:55:17.513608 1205 model_lifecycle.cc:459] loading: 1_predicttensorflowtriton:1\n",
+      "I0509 01:55:17.693342 1205 tensorflow.cc:2536] TRITONBACKEND_Initialize: tensorflow\n",
+      "I0509 01:55:17.693362 1205 tensorflow.cc:2546] Triton TRITONBACKEND API version: 1.10\n",
+      "I0509 01:55:17.693365 1205 tensorflow.cc:2552] 'tensorflow' TRITONBACKEND API version: 1.10\n",
+      "I0509 01:55:17.693368 1205 tensorflow.cc:2576] backend configuration:\n",
       "{\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}}\n",
-      "2023-04-13 11:24:30.207841: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-05-09 01:55:18.992767: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:24:32.085748: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:32.086174: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:32.086365: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:20.814292: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:20.814710: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:20.814876: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "I0413 11:24:33.803267 1527 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: executor_model_0 (GPU device 0)\n",
-      "2023-04-13 11:24:35.316462: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "I0509 01:55:22.571307 1205 tensorflow.cc:2642] TRITONBACKEND_ModelInitialize: 1_predicttensorflowtriton (version 1)\n",
+      "2023-05-09 01:55:22.571962: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:22.592315: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
+      "2023-05-09 01:55:22.592352: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:22.592474: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:24:37.126873: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.127251: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.127427: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "I0413 11:24:37.157059 1527 tensorflow.cc:2642] TRITONBACKEND_ModelInitialize: 1_predicttensorflowtriton (version 1)\n",
-      "I0413 11:24:37.157179 1527 model_lifecycle.cc:694] successfully loaded 'executor_model' version 1\n",
-      "2023-04-13 11:24:37.157805: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:37.178699: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
-      "2023-04-13 11:24:37.178742: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:37.178876: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-05-09 01:55:22.593417: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.609446: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.609627: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.855175: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.855338: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.855479: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:22.855607: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 29840 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "2023-05-09 01:55:22.913337: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:354] MLIR V1 optimization pass is not enabled\n",
+      "2023-05-09 01:55:22.922530: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n",
+      "2023-05-09 01:55:23.337695: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:23.403830: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 831878 microseconds.\n",
+      "2023-05-09 01:55:24.746386: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:24:37.179781: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.196068: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.196289: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.196570: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.196747: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.196909: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:37.197031: I tensorflow/core/common_runtime/gpu/gpu_process_state.cc:222] Using CUDA malloc Async allocator for GPU: 0\n",
-      "2023-04-13 11:24:37.203975: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 38618 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
-      "2023-04-13 11:24:37.262568: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:354] MLIR V1 optimization pass is not enabled\n",
-      "2023-04-13 11:24:37.271889: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n",
-      "2023-04-13 11:24:37.678751: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:37.745105: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 587310 microseconds.\n",
-      "2023-04-13 11:24:39.105154: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:24:40.997532: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:40.997994: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:40.998186: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:26.581369: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:26.581724: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:26.581886: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "I0413 11:24:42.684588 1527 tensorflow.cc:2691] TRITONBACKEND_ModelInstanceInitialize: 1_predicttensorflowtriton_0 (GPU device 0)\n",
-      "2023-04-13 11:24:42.684902: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:42.702205: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
-      "2023-04-13 11:24:42.702239: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:42.702447: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:42.702659: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:42.702822: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:42.703025: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:42.703189: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:42.703311: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 38618 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
-      "2023-04-13 11:24:42.742722: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n"
+      "I0509 01:55:28.344195 1205 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: executor_model_0 (GPU device 0)\n",
+      "2023-05-09 01:55:29.628356: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "2023-05-09 01:55:31.434543: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.434993: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.435198: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "I0509 01:55:31.465538 1205 tensorflow.cc:2691] TRITONBACKEND_ModelInstanceInitialize: 1_predicttensorflowtriton_0 (GPU device 0)\n",
+      "I0509 01:55:31.465701 1205 model_lifecycle.cc:694] successfully loaded 'executor_model' version 1\n",
+      "2023-05-09 01:55:31.465951: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:31.490532: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
+      "2023-05-09 01:55:31.490575: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:31.490777: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.491003: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.491186: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.491411: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.491588: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:31.491744: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 29840 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
+      "2023-05-09 01:55:31.549442: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-04-13 11:24:43.330311: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-04-13 11:24:43.395816: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 710922 microseconds.\n",
-      "I0413 11:24:43.395921 1527 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: 0_transformworkflowtriton_0 (GPU device 0)\n",
-      "I0413 11:24:43.396107 1527 model_lifecycle.cc:694] successfully loaded '1_predicttensorflowtriton' version 1\n",
-      "2023-04-13 11:24:44.668497: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-05-09 01:55:32.146750: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
+      "2023-05-09 01:55:32.213463: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 747520 microseconds.\n",
+      "I0509 01:55:32.213572 1205 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: 0_transformworkflowtriton_0 (GPU device 0)\n",
+      "I0509 01:55:32.213757 1205 model_lifecycle.cc:694] successfully loaded '1_predicttensorflowtriton' version 1\n",
+      "2023-05-09 01:55:33.476455: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-04-13 11:24:46.525315: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:46.525768: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-04-13 11:24:46.525978: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "I0413 11:24:46.583396 1527 model_lifecycle.cc:694] successfully loaded '0_transformworkflowtriton' version 1\n",
-      "I0413 11:24:46.583508 1527 server.cc:563] \n",
+      "2023-05-09 01:55:35.263779: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:35.264127: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 01:55:35.264284: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "I0509 01:55:35.317101 1205 model_lifecycle.cc:694] successfully loaded '0_transformworkflowtriton' version 1\n",
+      "I0509 01:55:35.317235 1205 server.cc:563] \n",
       "+------------------+------+\n",
       "| Repository Agent | Path |\n",
       "+------------------+------+\n",
       "+------------------+------+\n",
       "\n",
-      "I0413 11:24:46.583587 1527 server.cc:590] \n",
+      "I0509 01:55:35.317307 1205 server.cc:590] \n",
       "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
       "| Backend    | Path                                                            | Config                                                                                                                                                        |\n",
       "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
@@ -1204,7 +14316,7 @@
       "| tensorflow | /opt/tritonserver/backends/tensorflow2/libtriton_tensorflow2.so | {\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}} |\n",
       "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
       "\n",
-      "I0413 11:24:46.583634 1527 server.cc:633] \n",
+      "I0509 01:55:35.317350 1205 server.cc:633] \n",
       "+---------------------------+---------+--------+\n",
       "| Model                     | Version | Status |\n",
       "+---------------------------+---------+--------+\n",
@@ -1213,9 +14325,9 @@
       "| executor_model            | 1       | READY  |\n",
       "+---------------------------+---------+--------+\n",
       "\n",
-      "I0413 11:24:46.610538 1527 metrics.cc:864] Collecting metrics for GPU 0: Quadro RTX 8000\n",
-      "I0413 11:24:46.610778 1527 metrics.cc:757] Collecting CPU metrics\n",
-      "I0413 11:24:46.610913 1527 tritonserver.cc:2264] \n",
+      "I0509 01:55:35.343214 1205 metrics.cc:864] Collecting metrics for GPU 0: Quadro RTX 8000\n",
+      "I0509 01:55:35.343395 1205 metrics.cc:757] Collecting CPU metrics\n",
+      "I0509 01:55:35.343534 1205 tritonserver.cc:2264] \n",
       "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
       "| Option                           | Value                                                                                                                                                                                                |\n",
       "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
@@ -1234,16 +14346,16 @@
       "| exit_timeout                     | 30                                                                                                                                                                                                   |\n",
       "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
       "\n",
-      "I0413 11:24:46.611676 1527 grpc_server.cc:4819] Started GRPCInferenceService at 0.0.0.0:8001\n",
-      "I0413 11:24:46.611833 1527 http_server.cc:3477] Started HTTPService at 0.0.0.0:8000\n",
-      "I0413 11:24:46.652586 1527 http_server.cc:184] Started Metrics Service at 0.0.0.0:8002\n"
+      "I0509 01:55:35.344357 1205 grpc_server.cc:4819] Started GRPCInferenceService at 0.0.0.0:8001\n",
+      "I0509 01:55:35.344507 1205 http_server.cc:3477] Started HTTPService at 0.0.0.0:8000\n",
+      "I0509 01:55:35.385232 1205 http_server.cc:184] Started Metrics Service at 0.0.0.0:8002\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-04-13 11:25:37.504455: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
+      "2023-05-09 01:56:23.448369: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
      ]
     }
    ],

From f14d7333aa650a4f13689ff7d95cf832974808cd Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Tue, 9 May 2023 13:02:02 +1000
Subject: [PATCH 13/15] update

---
 ...nd_save_model_for_benchmarking-Copy1.ipynb | 644 +++++++-----------
 1 file changed, 256 insertions(+), 388 deletions(-)

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
index c048898d04..a9332b9c96 100644
--- a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 1,
    "id": "d062ceda",
    "metadata": {},
    "outputs": [
@@ -10,134 +10,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "From https://github.com/NVIDIA-Merlin/Models\n",
-      " * [new branch]        asvdb_metric_tracking   -> origin/asvdb_metric_tracking\n",
-      " * [new branch]        benchmark-session-based -> origin/benchmark-session-based\n",
-      " * [new branch]        ci/horovod              -> origin/ci/horovod\n",
-      " * [new branch]        codespell_fix           -> origin/codespell_fix\n",
-      "   16fb4149..fcaefc3e  fea-sok-integration-wj  -> origin/fea-sok-integration-wj\n",
-      " * [new branch]        fea-sok-load-dump       -> origin/fea-sok-load-dump\n",
-      " * [new branch]        fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
-      "   95462360..7d68dc88  gh-pages                -> origin/gh-pages\n",
-      " * [new branch]        implement_review_comments -> origin/implement_review_comments\n",
-      " * [new branch]        inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
-      " * [new branch]        laiacano/concurrency    -> origin/laiacano/concurrency\n",
-      "   835ad186..d8133b8f  main                    -> origin/main\n",
-      " * [new branch]        mtl_example             -> origin/mtl_example\n",
-      "   cb431a8a..b90e9a1b  release-22.12           -> origin/release-22.12\n",
-      " * [new branch]        release-23.02           -> origin/release-23.02\n",
-      " * [new branch]        release-23.04           -> origin/release-23.04\n",
-      " * [new branch]        stable                  -> origin/stable\n",
-      " * [new branch]        tf/batch_predict_fix    -> origin/tf/batch_predict_fix\n",
-      " * [new branch]        tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
-      " * [new branch]        tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
-      " * [new branch]        tf/dataloader_changes   -> origin/tf/dataloader_changes\n",
-      " * [new branch]        tf/dlrm_dropout_fix     -> origin/tf/dlrm_dropout_fix\n",
-      " * [new branch]        tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
-      " * [new branch]        tf/fix_logq_correction  -> origin/tf/fix_logq_correction\n",
-      " * [new branch]        tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
-      " * [new branch]        tf/loglossmetric_callbacks -> origin/tf/loglossmetric_callbacks\n",
-      " * [new branch]        tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
-      " + 169f3df5...06eecddd tf/output-block         -> origin/tf/output-block  (forced update)\n",
-      " * [new branch]        tf/pretrained_emb       -> origin/tf/pretrained_emb\n",
-      " * [new branch]        tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
-      " * [new branch]        tf/quick_start_ranking  -> origin/tf/quick_start_ranking\n",
-      " * [new branch]        tf/transformer-api      -> origin/tf/transformer-api\n",
-      " * [new branch]        torch/dev               -> origin/torch/dev\n",
-      " * [new branch]        torch/masking           -> origin/torch/masking\n",
-      " * [new branch]        torch/prototype         -> origin/torch/prototype\n",
-      " * [new branch]        torch/remove-t4r-code   -> origin/torch/remove-t4r-code\n",
-      " * [new branch]        tox_github_actions_fix  -> origin/tox_github_actions_fix\n",
-      " * [new branch]        transformer-api         -> origin/transformer-api\n",
-      " + 0a65d603...9f53e8ff update_07               -> origin/update_07  (forced update)\n",
-      " * [new tag]           v23.02.00               -> v23.02.00\n",
-      " * [new tag]           v23.04.00               -> v23.04.00\n",
-      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
       "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
-      "HEAD is now at a86201ee add masking support to SequencePredictRandom transform\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Processing /models\n",
-      "  Installing build dependencies: started\n",
-      "  Installing build dependencies: finished with status 'done'\n",
-      "  Getting requirements to build wheel: started\n",
-      "  Getting requirements to build wheel: finished with status 'done'\n",
-      "    Preparing wheel metadata: started\n",
-      "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-dataloader>=0.0.2 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.0.4)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-models==23.2.0+7.ga86201ee) (0.10.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.56.4)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.0.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.19.6)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.12.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.5)\n",
-      "Requirement already satisfied: dask>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
-      "Requirement already satisfied: distributed>=2022.3.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (22.0)\n",
-      "Requirement already satisfied: fsspec==2022.5.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.5.0)\n",
-      "Requirement already satisfied: pandas<1.4.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.5)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (45.2.0)\n",
-      "Requirement already satisfied: numpy<1.24,>=1.18 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.22.4)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.57.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.2.0)\n",
-      "Requirement already satisfied: partd>=0.3.10 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.3.0)\n",
-      "Requirement already satisfied: toolz>=0.8.2 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.1.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
-      "Requirement already satisfied: click>=6.6 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (8.1.3)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.2.0)\n",
-      "Requirement already satisfied: psutil>=5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (5.9.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.7.0)\n",
-      "Requirement already satisfied: sortedcontainers!=2.0.0,!=2.0.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.4.0)\n",
-      "Requirement already satisfied: urllib3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.26.13)\n",
-      "Requirement already satisfied: msgpack>=0.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.0)\n",
-      "Requirement already satisfied: tornado<6.2,>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.1)\n",
-      "Requirement already satisfied: jinja2 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.1.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.8.2)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (3.11.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.1.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2->distributed>=2022.3.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (2.1.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.4.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (1.14.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-models==23.2.0+7.ga86201ee) (4.0.0)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Building wheels for collected packages: merlin-models\n",
-      "  Building wheel for merlin-models (PEP 517): started\n",
-      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-23.2.0+7.ga86201ee-py3-none-any.whl size=374647 sha256=e83a617585afdc41213cc3cf69dd7c136b778260ce9dc14c37e87c4a5675372a\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-uc9xl_m5/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
-      "Successfully built merlin-models\n",
-      "Installing collected packages: merlin-models\n",
-      "  Attempting uninstall: merlin-models\n",
-      "    Found existing installation: merlin-models 0.11.0\n",
-      "    Uninstalling merlin-models-0.11.0:\n",
-      "      Successfully uninstalled merlin-models-0.11.0\n",
-      "Successfully installed merlin-models-23.2.0+7.ga86201ee\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "Previous HEAD position was a86201ee add masking support to SequencePredictRandom transform\n",
       "Switched to branch 'main'\n"
      ]
     },
@@ -145,8 +18,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Your branch is behind 'origin/main' by 75 commits, and can be fast-forwarded.\n",
-      "  (use \"git pull\" to update your local branch)\n"
+      "Your branch is up to date with 'origin/main'.\n"
      ]
     },
     {
@@ -154,7 +26,8 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/Models\n",
-      " * branch              main       -> FETCH_HEAD\n"
+      " * branch              main       -> FETCH_HEAD\n",
+      "   835ad186..d8133b8f  main       -> origin/main\n"
      ]
     },
     {
@@ -472,73 +345,73 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (8.0.0)\n",
-      "Collecting dask-cuda>=22.12.0\n",
-      "  Downloading dask_cuda-23.4.0-py3-none-any.whl (125 kB)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.56.4)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.12.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (11.4.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (22.0)\n",
       "Collecting fsspec>=2022.7.1\n",
       "  Downloading fsspec-2023.5.0-py3-none-any.whl (160 kB)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.22.4)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.56.4)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.19.6)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.64.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (8.0.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.12.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.2.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (11.4.1)\n",
       "Collecting dask>=2022.11.1\n",
       "  Downloading dask-2023.4.1-py3-none-any.whl (1.2 MB)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.22.4)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (22.0)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.19.6)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.5)\n",
       "Collecting distributed>=2022.11.1\n",
       "  Downloading distributed-2023.4.1-py3-none-any.whl (962 kB)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.2.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.64.1)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.39.1)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.12.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (8.1.3)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.3.0)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.8.2)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.1.2)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.7.0)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (5.9.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.0)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.4.0)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.26.13)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.1)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.4)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.2.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.0.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (3.11.0)\n"
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.5)\n",
+      "Collecting dask-cuda>=22.12.0\n",
+      "  Downloading dask_cuda-23.4.0-py3-none-any.whl (125 kB)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (45.2.0)\n",
+      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (5.2.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.2.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.12.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.2.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (8.1.3)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.26.13)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (5.9.4)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.2.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.4.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.1)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.7.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.4)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.0)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.1.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.8.2)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.11.0)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.1.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (1.14.0)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (2.1.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0.4)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==23.5.dev0+12.gd8133b8f) (4.0.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0.4)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.1.1)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.14.0)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0.1)\n",
       "Building wheels for collected packages: merlin-models, merlin-core, merlin-dataloader\n",
       "  Building wheel for merlin-models (PEP 517): started\n",
       "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-23.5.dev0+12.gd8133b8f-py3-none-any.whl size=343289 sha256=1f20f65acef288535cc4e5bca6de216485c546156d707b17b3bb9b8ceedc3ec7\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-0prgr6hn/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "  Created wheel for merlin-models: filename=merlin_models-0.9.0+157.gd8133b8f-py3-none-any.whl size=343257 sha256=2c9ef3392cbe77d1daad7c766b221d7bec14cc3c18c7b000c9312e00a7d1a16f\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-5qnt9sgn/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-23.4.0-py3-none-any.whl size=159556 sha256=9a716886c9862c32bd19979d286f32eb664022c85bcee19ca2d762fa014c8e85\n",
+      "  Created wheel for merlin-core: filename=merlin_core-23.4.0-py3-none-any.whl size=159556 sha256=f8418cb4ec8a321feabf92606e7da3f7e6f913de2757c44ea02db38e7ea51494\n",
       "  Stored in directory: /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.4.0-py3-none-any.whl size=34732 sha256=a7853a487205c4a6fdf99d03bda0cacba559264387e507e2f8d6cd87dc471c80\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.4.0-py3-none-any.whl size=34732 sha256=e09b59834d26dbdb9418925dc395adf47d9ea26c53daea3d18cdb79d5211d04b\n",
       "  Stored in directory: /root/.cache/pip/wheels/90/b0/66/48e52cc29f544ffbd105154b8be0901b5bb80cc85842b778fc\n",
       "Successfully built merlin-models merlin-core merlin-dataloader\n"
      ]
@@ -587,10 +460,10 @@
       "    Uninstalling merlin-dataloader-0.0.4:\n",
       "      Successfully uninstalled merlin-dataloader-0.0.4\n",
       "  Attempting uninstall: merlin-models\n",
-      "    Found existing installation: merlin-models 23.2.0+7.ga86201ee\n",
-      "    Uninstalling merlin-models-23.2.0+7.ga86201ee:\n",
-      "      Successfully uninstalled merlin-models-23.2.0+7.ga86201ee\n",
-      "Successfully installed dask-2023.4.1 dask-cuda-23.4.0 distributed-2023.4.1 fsspec-2023.5.0 merlin-core-23.4.0 merlin-dataloader-23.4.0 merlin-models-23.5.dev0+12.gd8133b8f\n"
+      "    Found existing installation: merlin-models 0.11.0\n",
+      "    Uninstalling merlin-models-0.11.0:\n",
+      "      Successfully uninstalled merlin-models-0.11.0\n",
+      "Successfully installed dask-2023.4.1 dask-cuda-23.4.0 distributed-2023.4.1 fsspec-2023.5.0 merlin-core-23.4.0 merlin-dataloader-23.4.0 merlin-models-0.9.0+157.gd8133b8f\n"
      ]
     },
     {
@@ -792,49 +665,49 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.2.5)\n",
       "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.3.5)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (4.64.1)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.12.0)\n",
       "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (0.56.4)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (23.4.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (11.4.1)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (22.0)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (3.19.6)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (23.4.0)\n",
       "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (3.19.6)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (11.4.1)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.5.0)\n",
       "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.22.4)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (4.64.1)\n",
       "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (8.0.0)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.12.0)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.5.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (0.4.3)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.2.5)\n",
       "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2022.7)\n",
       "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2.8.2)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.57.0)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (45.2.0)\n",
       "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (5.2.0)\n",
       "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (45.2.0)\n",
       "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (3.1.2)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (5.9.4)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.26.13)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.1)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.0)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.4.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.0)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (8.1.3)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (0.12.0)\n",
       "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.7.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.1)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (5.9.4)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.4.0)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.26.13)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (3.1.2)\n",
       "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.4)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (8.1.3)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (0.12.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.1.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (0.4.3)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (1.2.0)\n",
       "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.14.0)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (3.11.0)\n",
       "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (1.0.1)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.1.1)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.4)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.1.0)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.0.0)\n"
      ]
     },
@@ -846,8 +719,8 @@
       "Building wheels for collected packages: merlin-core\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+125.ga0bcd30f-py3-none-any.whl size=161449 sha256=57d8552cb7abbed6b1d1b2860391c64e7dfea045c442fc0f94c0fc940aed7e3d\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-0yemn26u/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+125.ga0bcd30f-py3-none-any.whl size=161449 sha256=0c37c110ad7a9dc1a4721b776063e9d1571a000763322b27df7ea731ae78164e\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-yeu5mq1c/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
       "Successfully built merlin-core\n"
      ]
     },
@@ -855,7 +728,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "ERROR: merlin-models 23.5.dev0+12.gd8133b8f has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n",
+      "ERROR: merlin-models 0.9.0+157.gd8133b8f has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n",
       "ERROR: merlin-dataloader 23.4.0 has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n"
      ]
     },
@@ -1011,17 +884,16 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
       "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (1.9.3)\n",
       "Processing /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7/merlin_core-23.4.0-py3-none-any.whl\n",
+      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
       "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+66.g67136eba) (1.22.4)\n",
       "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.56.4)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.5)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (11.4.1)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.12.0)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.0.0)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.64.1)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n"
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.5)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n"
      ]
     },
     {
@@ -1029,47 +901,48 @@
      "output_type": "stream",
      "text": [
       "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.19.6)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.64.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (22.0)\n",
       "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (11.4.1)\n",
       "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.5.0)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.5)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (22.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.39.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.0.0)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.5)\n",
       "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.39.1)\n",
       "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.0)\n",
       "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.57.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.12.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.1.3)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.9.4)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.4)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.1)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.26.13)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.1.2)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.8.2)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.0)\n",
       "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.4.0)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.1.3)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.4)\n",
       "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.7.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2022.7)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.12.0)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.26.13)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.9.4)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
+      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.1)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.1.2)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.4.3)\n",
       "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.11.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.14.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.1.1)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.1.0)\n",
       "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.4)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.14.0)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.0.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.1)\n",
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+66.g67136eba-cp38-cp38-linux_x86_64.whl size=259850 sha256=957958ecd0f9149dbe203eb5e2a3d1b5ec128421aee4e31572f4ca8574131719\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-btpmur92/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+66.g67136eba-cp38-cp38-linux_x86_64.whl size=259850 sha256=b7b2ec970d1e905ffca54a11728068e88a5ef40dfcd582124e0d0d1c8ca7d590\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-kfeyyfk1/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
       "Installing collected packages: merlin-core, nvtabular\n",
       "  Attempting uninstall: merlin-core\n",
@@ -1244,78 +1117,78 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n"
+      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
+      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.28.1)\n",
-      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
       "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (1.6.0+66.g67136eba)\n",
-      "Requirement already satisfied: numpy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.22.4)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.9.3)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.19.6)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.5)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.0.0)\n",
+      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
+      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.28.1)\n",
+      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (22.0)\n",
       "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (11.4.1)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.5.0)\n",
+      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.0.0)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.64.1)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.56.4)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.22.4)\n",
       "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
       "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (22.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.56.4)\n",
       "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.12.0)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
+      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.5)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.5)\n",
+      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.19.6)\n",
+      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.5.0)\n",
+      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.9.3)\n",
+      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.8)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (1.26.13)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
       "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2019.11.28)\n",
-      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2022.7)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.4.3)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.7.0)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.9.4)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
+      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0)\n",
+      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.1.3)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.12.0)\n",
+      "Requirement already satisfied: importlib-metadata>=4.13.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.39.1)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (45.2.0)\n",
       "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.4)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.9.4)\n",
+      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
+      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.7.0)\n",
       "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.1)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.12.0)\n",
       "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.1.2)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0)\n",
       "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.1.3)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.2.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.39.1)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
       "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.57.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.14.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.4)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.1)\n"
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.4.3)\n",
+      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2022.7)\n",
+      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.8.2)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata>=4.13.0->dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.11.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.1)\n",
+      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.4)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.1)\n",
+      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.1.0)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.14.0)\n",
       "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.0.0)\n",
+      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.1)\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+98.g2b1b90b-py3-none-any.whl size=83152 sha256=282b1d3abe91766660d30dcbfa6d196c7f13d8d7d1b554eefd02455b7cdc1924\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ojtyyyod/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+98.g2b1b90b-py3-none-any.whl size=83152 sha256=929338ae18fc3ba7e4b48667542c61c8468ba170761cc9e43b7060d9fb636b0a\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-gwpk5ek7/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
@@ -1430,62 +1303,62 @@
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
       "Requirement already satisfied: merlin-core>=23.04.00 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.56.4)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.5)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.0.0)\n",
       "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.64.1)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (11.4.1)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.12.0)\n",
       "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (22.0)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.22.4)\n",
+      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.0.0)\n",
+      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.5)\n",
       "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.19.6)\n",
+      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.22.4)\n",
       "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.5.0)\n",
+      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.12.0)\n",
+      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
+      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
       "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.2.0)\n",
+      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.56.4)\n",
+      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (11.4.1)\n",
+      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.64.1)\n",
+      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.0)\n",
+      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.4.3)\n",
       "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.8.2)\n",
       "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2022.7)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.0)\n"
+      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.57.0)\n",
+      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.4.3)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.9.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.0)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.4)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0)\n",
+      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
       "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.1)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.1.2)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.4.0)\n",
       "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.7.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.12.0)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.26.13)\n",
+      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.4)\n",
+      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.1.2)\n",
+      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
       "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.1.3)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.57.0)\n",
+      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.9.4)\n",
+      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.26.13)\n",
+      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.12.0)\n",
+      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.4.0)\n",
+      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0)\n",
+      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.0)\n",
+      "Requirement already satisfied: importlib-metadata>=4.13.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.2.0)\n",
       "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.14.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.4)\n",
+      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (45.2.0)\n",
+      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.39.1)\n",
       "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.1.0)\n",
+      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.4)\n",
+      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.14.0)\n",
+      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.1)\n",
       "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.1.1)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.0.0)\n",
+      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata>=4.13.0->dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.11.0)\n",
       "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.1)\n",
+      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.0.0)\n",
       "Building wheels for collected packages: merlin-dataloader\n",
       "  Building wheel for merlin-dataloader (PEP 517): started\n",
       "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+72.gd9e97b4-py3-none-any.whl size=34881 sha256=c39b7e146f814713447917029d09f8cf4978202ed3852dce51544461cd074e3b\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-t_njcpzr/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+72.gd9e97b4-py3-none-any.whl size=34881 sha256=3b59ffde476328ed024b3610d55773d48ee2a39a5c9dcc7bc4429f86ecdb3307\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-3z4lu_lg/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
       "Successfully built merlin-dataloader\n"
      ]
     },
@@ -1494,7 +1367,7 @@
      "output_type": "stream",
      "text": [
       "ERROR: nvtabular 1.6.0+66.g67136eba has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n",
-      "ERROR: merlin-models 23.5.dev0+12.gd8133b8f has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n"
+      "ERROR: merlin-models 0.9.0+157.gd8133b8f has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n"
      ]
     },
     {
@@ -1511,19 +1384,18 @@
     }
    ],
    "source": [
-    "# %%bash\n",
+    "%%bash\n",
     "\n",
-    "# cd /models && git fetch origin && git checkout origin/tf/transformer-api && pip install .\n",
-    "# cd /models && git checkout main && git pull origin main && pip install .\n",
-    "# cd /core && git checkout main && git pull origin main && pip install .\n",
-    "# cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
-    "# cd /systems && git checkout main && git pull origin main && pip install .\n",
-    "# cd /dataloader && git checkout main && git pull origin main && pip install ."
+    "cd /models && git checkout main && git pull origin main && pip install .\n",
+    "cd /core && git checkout main && git pull origin main && pip install .\n",
+    "cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
+    "cd /systems && git checkout main && git pull origin main && pip install .\n",
+    "cd /dataloader && git checkout main && git pull origin main && pip install ."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 2,
    "id": "e9929dc8",
    "metadata": {},
    "outputs": [
@@ -1533,15 +1405,15 @@
      "text": [
       "Collecting gdown\n",
       "  Downloading gdown-4.7.1-py3-none-any.whl (15 kB)\n",
-      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
-      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
       "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
       "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
       "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
       "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
+      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
       "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
       "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
       "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
       "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
@@ -1555,9 +1427,9 @@
      "text": [
       "Downloading...\n",
       "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=b5bb23eb-a2dd-4adc-b7b7-be5687c89aca\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=c6c52af8-65d0-4308-84a7-f680f5add55c\n",
       "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.20MB/s]\n"
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.16MB/s]\n"
      ]
     },
     {
@@ -1566,25 +1438,25 @@
      "text": [
       "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
       "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [1009 kB]\n",
-      "Get:3 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
-      "Get:4 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
-      "Get:5 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:3 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
       "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
       "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Get:8 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:8 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
       "Get:9 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
-      "Get:10 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
-      "Get:11 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
-      "Get:12 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
-      "Get:13 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
-      "Get:14 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
-      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:11 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
       "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
       "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
-      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
       "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
       "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
-      "Fetched 27.3 MB in 9s (2922 kB/s)\n",
+      "Fetched 27.3 MB in 9s (2917 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
@@ -1605,17 +1477,17 @@
     }
    ],
    "source": [
-    "# %%bash\n",
+    "%%bash\n",
     "\n",
-    "# rm -rf ecom_dataset\n",
-    "# mkdir -p ecom_dataset\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
     "\n",
-    "# pip install gdown\n",
-    "# # gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
-    "# gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-    "# apt-get update -y\n",
-    "# apt-get install unzip -y\n",
-    "# unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
    ]
   },
   {
@@ -1874,8 +1746,8 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
-   "id": "0660887b",
+   "execution_count": 7,
+   "id": "fd80de2a",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -1887,15 +1759,15 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
-   "id": "ec38f1a6",
+   "execution_count": 8,
+   "id": "d5a1e610",
    "metadata": {},
    "outputs": [
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-05-09 01:50:24.115697: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "2023-05-09 02:55:54.458160: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
       "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
       "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
@@ -1911,7 +1783,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 9,
    "id": "ceb3ae93",
    "metadata": {},
    "outputs": [
@@ -1926,9 +1798,9 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "2023-05-09 01:50:26.436605: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:26.437013: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:26.437158: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
+      "2023-05-09 02:55:56.823309: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 02:55:56.823677: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 02:55:56.823805: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
      ]
     },
     {
@@ -1937,26 +1809,22 @@
      "text": [
       "[INFO]: sparse_operation_kit is imported\n",
       "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.base has been moved to tensorflow.python.trackable.base. The old module will be deleted in version 2.11.\n",
-      "[SOK INFO] Import /usr/local/lib/python3.8/dist-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg/sparse_operation_kit/lib/libsok_experiment.so\n",
-      "[SOK INFO] Initialize finished, communication tool: horovod\n"
+      "[SOK INFO] Import /usr/local/lib/python3.8/dist-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg/sparse_operation_kit/lib/libsok_experiment.so\n"
      ]
     },
     {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-05-09 01:50:26.674203: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:50:26.675123: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:26.675302: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:26.675428: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:27.455564: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:27.455749: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:27.455877: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:50:27.455980: W tensorflow/core/common_runtime/gpu/gpu_bfc_allocator.cc:42] Overriding orig_value setting because the TF_FORCE_GPU_ALLOW_GROWTH environment variable is set. Original config value was 0.\n",
-      "2023-05-09 01:50:27.456001: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 24576 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
-      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:22: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
-      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     "ename": "TypeError",
+     "evalue": "init() got an unexpected keyword argument 'use_legacy_optimizer'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[9], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mmm\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/__init__.py:34\u001b[0m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcross\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CrossBlock\n\u001b[1;32m     33\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdlrm\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DLRMBlock\n\u001b[0;32m---> 34\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mexperts\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CGCBlock, ExpertsGate, MMOEBlock, PLEBlock\n\u001b[1;32m     35\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minteraction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     36\u001b[0m     DotProductInteraction,\n\u001b[1;32m     37\u001b[0m     FMBlock,\n\u001b[1;32m     38\u001b[0m     FMPairwiseInteraction,\n\u001b[1;32m     39\u001b[0m )\n\u001b[1;32m     40\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmlp\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DenseResidualBlock, MLPBlock\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/blocks/experts.py:28\u001b[0m\n\u001b[1;32m     21\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Block\n\u001b[1;32m     22\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcombinators\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     23\u001b[0m     ParallelBlock,\n\u001b[1;32m     24\u001b[0m     SequentialBlock,\n\u001b[1;32m     25\u001b[0m     TabularBlock,\n\u001b[1;32m     26\u001b[0m     WithShortcut,\n\u001b[1;32m     27\u001b[0m )\n\u001b[0;32m---> 28\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m get_task_names_from_outputs\n\u001b[1;32m     29\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction_tasks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m ParallelPredictionBlock, PredictionTask\n\u001b[1;32m     30\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtyping\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularData\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/models/base.py:51\u001b[0m\n\u001b[1;32m     49\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Prediction, PredictionContext, TensorLike\n\u001b[1;32m     50\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtabular\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularBlock\n\u001b[0;32m---> 51\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdistributed\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbackend\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m hvd, hvd_installed\n\u001b[1;32m     52\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minputs\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m InputBlock\n\u001b[1;32m     53\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mloader\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Loader\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/distributed/backend.py:33\u001b[0m\n\u001b[1;32m     29\u001b[0m         \u001b[38;5;28;01mpass\u001b[39;00m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m sok_installed:\n\u001b[0;32m---> 33\u001b[0m     \u001b[43msok\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minit\u001b[49m\u001b[43m(\u001b[49m\u001b[43muse_legacy_optimizer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m)\u001b[49m\n",
+      "\u001b[0;31mTypeError\u001b[0m: init() got an unexpected keyword argument 'use_legacy_optimizer'"
      ]
     }
    ],
@@ -1966,7 +1834,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": null,
    "id": "11647dd3",
    "metadata": {},
    "outputs": [],
@@ -2151,7 +2019,7 @@
   {
    "cell_type": "code",
    "execution_count": 16,
-   "id": "076f42cc",
+   "id": "7baec64f",
    "metadata": {},
    "outputs": [
     {
@@ -2246,7 +2114,7 @@
   {
    "cell_type": "code",
    "execution_count": 18,
-   "id": "febab09e",
+   "id": "569113e1",
    "metadata": {},
    "outputs": [
     {
@@ -2326,7 +2194,7 @@
   {
    "cell_type": "code",
    "execution_count": 19,
-   "id": "8e0ea1b1",
+   "id": "2b09261c",
    "metadata": {},
    "outputs": [
     {
@@ -13647,7 +13515,7 @@
   {
    "cell_type": "code",
    "execution_count": 20,
-   "id": "2f5a7984",
+   "id": "4c62973a",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -13657,7 +13525,7 @@
   {
    "cell_type": "code",
    "execution_count": 21,
-   "id": "dc4df316",
+   "id": "e5db703a",
    "metadata": {},
    "outputs": [
     {
@@ -13676,7 +13544,7 @@
   {
    "cell_type": "code",
    "execution_count": 22,
-   "id": "f3bfca3f",
+   "id": "e11f107c",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -13686,7 +13554,7 @@
   {
    "cell_type": "code",
    "execution_count": 23,
-   "id": "7e1b9bbc",
+   "id": "c216e7fb",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -13699,7 +13567,7 @@
   {
    "cell_type": "code",
    "execution_count": 24,
-   "id": "7ee5f149",
+   "id": "ea436b46",
    "metadata": {},
    "outputs": [
     {
@@ -13724,7 +13592,7 @@
   {
    "cell_type": "code",
    "execution_count": 25,
-   "id": "81d2b071",
+   "id": "dcd414a9",
    "metadata": {},
    "outputs": [
     {
@@ -13744,7 +13612,7 @@
   {
    "cell_type": "code",
    "execution_count": 26,
-   "id": "7b24e7fa",
+   "id": "b6244062",
    "metadata": {},
    "outputs": [
     {

From 2ed210f0489d108ccd842f63728435ba882e8391 Mon Sep 17 00:00:00 2001
From: Radek Osmulski <rosmulski@gmail.com>
Date: Tue, 9 May 2023 16:27:38 +1000
Subject: [PATCH 14/15] update

---
 ...nd_save_model_for_benchmarking-Copy1.ipynb | 15250 +---------------
 1 file changed, 863 insertions(+), 14387 deletions(-)

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
index a9332b9c96..dc41a41849 100644
--- a/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking-Copy1.ipynb
@@ -3,760 +3,133 @@
   {
    "cell_type": "code",
    "execution_count": 1,
-   "id": "d062ceda",
+   "id": "026bd245",
    "metadata": {},
    "outputs": [
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Previous HEAD position was cb431a8a Fix the serialization of `SequenceSummary` block (#927)\n",
-      "Switched to branch 'main'\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Your branch is up to date with 'origin/main'.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "From https://github.com/NVIDIA-Merlin/Models\n",
-      " * branch              main       -> FETCH_HEAD\n",
-      "   835ad186..d8133b8f  main       -> origin/main\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Updating 835ad186..d8133b8f\n",
-      "Fast-forward\n",
-      " .github/workflows/blossom-ci.yml                   |  102 --\n",
-      " .github/workflows/check-base-branch.yaml           |    9 +\n",
-      " .github/workflows/cpu-horovod.yml                  |   53 +\n",
-      " .github/workflows/cpu-nvtabular.yml                |   10 +-\n",
-      " .github/workflows/cpu-systems.yml                  |   10 +-\n",
-      " .github/workflows/cpu-t4r.yml                      |   41 +\n",
-      " .github/workflows/datasets.yml                     |    8 +-\n",
-      " .github/workflows/docs-build.yaml                  |    2 +-\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |    7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |   12 +-\n",
-      " .github/workflows/implicit.yml                     |    8 +-\n",
-      " .github/workflows/lightfm.yml                      |   14 +-\n",
-      " .github/workflows/multi-gpu-ci.yml                 |   34 +\n",
-      " .github/workflows/packages.yaml                    |  120 ++\n",
-      " .github/workflows/pre-commit.yml                   |    8 +\n",
-      " .github/workflows/pytorch.yml                      |   85 +-\n",
-      " .github/workflows/release-drafter.yaml             |    2 +-\n",
-      " .github/workflows/set-stable-branch.yaml           |   10 +\n",
-      " .github/workflows/tensorflow.yml                   |   49 +-\n",
-      " .github/workflows/xgboost.yml                      |    8 +-\n",
-      " .pre-commit-config.yaml                            |   10 +-\n",
-      " MANIFEST.in                                        |    5 +-\n",
-      " README.md                                          |    2 +-\n",
-      " ci/pr.gpu.Jenkinsfile                              |    2 +-\n",
-      " conda/recipes/meta.yaml                            |   17 +-\n",
-      " docs/README.md                                     |   46 +-\n",
-      " docs/source/api.rst                                |   99 +-\n",
-      " examples/01-Getting-started.ipynb                  |  101 +-\n",
-      " ...2-Merlin-Models-and-NVTabular-integration.ipynb |   13 +-\n",
-      " examples/03-Exploring-different-models.ipynb       |   25 +-\n",
-      " examples/04-Exporting-ranking-models.ipynb         |    9 +-\n",
-      " examples/05-Retrieval-Model.ipynb                  |   30 +-\n",
-      " ...-your-own-architecture-with-Merlin-Models.ipynb |  546 +++----\n",
-      " ...nal-ML-models-using-the-Merlin-Models-API.ipynb |  701 +++++++-\n",
-      " examples/images/mtl_architectures.png              |  Bin 0 -> 72404 bytes\n",
-      " ...ing-of-large-embedding-tables-by-LazyAdam.ipynb |   12 +-\n",
-      " ...on-based-next-item-prediction-for-fashion.ipynb |   11 +-\n",
-      " .../entertainment-with-pretrained-embeddings.ipynb |    8 +-\n",
-      " .../incremental-training-with-layer-freezing.ipynb |  275 ++--\n",
-      " .../multi-gpu-data-parallel-training.ipynb         |    7 +-\n",
-      " .../multi-gpu/install_sparse_operation_kit.sh      |   16 +\n",
-      " .../usecases/ranking_with_multitask_learning.ipynb | 1718 ++++++++++++++++++++\n",
-      " ...etrieval-with-hyperparameter-optimization.ipynb |    5 +-\n",
-      " .../transformers-next-item-prediction.ipynb        | 1085 ++++++++----\n",
-      " .../ecommerce/booking/transformed/schema.pbtxt     |   15 +-\n",
-      " merlin/datasets/ecommerce/small/schema.json        |    7 +-\n",
-      " .../entertainment/movielens/100k/schema.pbtxt      |    1 +\n",
-      " .../entertainment/movielens/1m/schema.pbtxt        |    3 +-\n",
-      " .../entertainment/movielens/25m/schema.pbtxt       |    1 +\n",
-      " .../entertainment/music_streaming/schema.json      |   10 +-\n",
-      " .../entertainment/tenrec_video}/__init__.py        |    0\n",
-      " .../entertainment/tenrec_video/schema.pbtxt        |  159 ++\n",
-      " merlin/datasets/synthetic.py                       |  104 +-\n",
-      " .../datasets/testing/sequence_testing/schema.json  |   24 +-\n",
-      " merlin/models/implicit/__init__.py                 |  115 +-\n",
-      " merlin/models/io.py                                |    2 -\n",
-      " merlin/models/lightfm/__init__.py                  |  132 +-\n",
-      " merlin/models/tf/__init__.py                       |   12 +-\n",
-      " merlin/models/tf/blocks/dlrm.py                    |   21 +-\n",
-      " merlin/models/tf/blocks/experts.py                 |   33 +-\n",
-      " merlin/models/tf/blocks/optimizer.py               |   74 +-\n",
-      " merlin/models/tf/blocks/retrieval/base.py          |    1 -\n",
-      " merlin/models/tf/core/aggregation.py               |   87 +-\n",
-      " merlin/models/tf/core/combinators.py               |    6 +-\n",
-      " merlin/models/tf/core/encoder.py                   |   54 +-\n",
-      " merlin/models/tf/core/tabular.py                   |    3 +-\n",
-      " merlin/models/tf/distributed/backend.py            |   20 +\n",
-      " merlin/models/tf/distributed/embedding.py          |  232 +++\n",
-      " merlin/models/tf/experimental/sample_weight.py     |  177 ++\n",
-      " merlin/models/tf/inputs/base.py                    |   26 +-\n",
-      " merlin/models/tf/inputs/continuous.py              |   41 +-\n",
-      " merlin/models/tf/inputs/embedding.py               |  138 +-\n",
-      " merlin/models/tf/loader.py                         |   36 +-\n",
-      " merlin/models/tf/metrics/__init__.py               |   31 +-\n",
-      " merlin/models/tf/metrics/evaluation.py             |    4 +-\n",
-      " merlin/models/tf/metrics/topk.py                   |   17 +-\n",
-      " merlin/models/tf/models/base.py                    |  887 +++++++---\n",
-      " merlin/models/tf/models/benchmark.py               |   20 +-\n",
-      " merlin/models/tf/models/ranking.py                 |   93 +-\n",
-      " merlin/models/tf/models/retrieval.py               |    5 +\n",
-      " merlin/models/tf/models/utils.py                   |   38 +\n",
-      " merlin/models/tf/outputs/base.py                   |   27 +-\n",
-      " merlin/models/tf/outputs/block.py                  |  300 ++++\n",
-      " merlin/models/tf/outputs/classification.py         |   14 +-\n",
-      " merlin/models/tf/outputs/contrastive.py            |   65 +-\n",
-      " merlin/models/tf/outputs/regression.py             |    8 +-\n",
-      " merlin/models/tf/outputs/sampling/base.py          |   34 +-\n",
-      " merlin/models/tf/outputs/sampling/popularity.py    |   93 +-\n",
-      " merlin/models/tf/outputs/topk.py                   |    2 -\n",
-      " merlin/models/tf/prediction_tasks/base.py          |   15 +\n",
-      " .../models/tf/prediction_tasks/classification.py   |   11 +-\n",
-      " merlin/models/tf/prediction_tasks/regression.py    |    3 +-\n",
-      " merlin/models/tf/transformers/block.py             |   61 +-\n",
-      " merlin/models/tf/transformers/transforms.py        |   52 +-\n",
-      " merlin/models/tf/transforms/bias.py                |   18 +-\n",
-      " merlin/models/tf/transforms/features.py            |  579 +++++--\n",
-      " merlin/models/tf/transforms/negative_sampling.py   |   25 +-\n",
-      " merlin/models/tf/transforms/sequence.py            |  523 ++++--\n",
-      " merlin/models/tf/transforms/tensor.py              |  249 +--\n",
-      " merlin/models/tf/utils/batch_utils.py              |    8 +-\n",
-      " merlin/models/tf/utils/testing_utils.py            |   81 +-\n",
-      " merlin/models/tf/utils/tf_utils.py                 |   85 +-\n",
-      " merlin/models/torch/__init__.py                    |   97 --\n",
-      " merlin/models/torch/block/base.py                  |  321 ----\n",
-      " merlin/models/torch/block/mlp.py                   |   95 --\n",
-      " merlin/models/torch/features/base.py               |   23 -\n",
-      " merlin/models/torch/features/continuous.py         |   66 -\n",
-      " merlin/models/torch/features/embedding.py          |  497 ------\n",
-      " merlin/models/torch/features/tabular.py            |  217 ---\n",
-      " merlin/models/torch/losses.py                      |   75 -\n",
-      " merlin/models/torch/model/__init__.py              |   15 -\n",
-      " merlin/models/torch/model/base.py                  |  660 --------\n",
-      " merlin/models/torch/model/prediction_task.py       |  101 --\n",
-      " merlin/models/torch/tabular/__init__.py            |   15 -\n",
-      " merlin/models/torch/tabular/aggregation.py         |  149 --\n",
-      " merlin/models/torch/tabular/base.py                |  640 --------\n",
-      " merlin/models/torch/tabular/transformations.py     |  124 --\n",
-      " merlin/models/torch/typing.py                      |   30 -\n",
-      " merlin/models/torch/utils/__init__.py              |   15 -\n",
-      " merlin/models/torch/utils/data_utils.py            |  376 -----\n",
-      " merlin/models/torch/utils/examples_utils.py        |  107 --\n",
-      " merlin/models/torch/utils/torch_utils.py           |  210 ---\n",
-      " merlin/models/utils/dataset.py                     |   59 +-\n",
-      " merlin/models/utils/misc_utils.py                  |    7 +-\n",
-      " merlin/models/utils/nvt_utils.py                   |    6 +-\n",
-      " merlin/models/utils/schema_utils.py                |   24 +-\n",
-      " merlin/models/xgb/__init__.py                      |    1 -\n",
-      " pytest.ini                                         |   15 +\n",
-      " requirements/base.txt                              |    4 +-\n",
-      " requirements/docs.txt                              |    3 +-\n",
-      " requirements/horovod-cpu-environment.yml           |   18 +\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      " requirements/horovod.txt                           |    1 +\n",
-      " requirements/tensorflow.txt                        |    2 +-\n",
-      " requirements/test.txt                              |    2 +-\n",
-      " requirements/transformers.txt                      |    2 +-\n",
-      " tests/common/tf/retrieval/retrieval_utils.py       |    4 +-\n",
-      " tests/integration/tf/test_ci_01_getting_started.py |   20 +-\n",
-      " .../tf/test_ci_03_exploring_different_models.py    |    8 +-\n",
-      " .../tf/test_ci_06_advanced_own_architecture.py     |    8 +-\n",
-      " tests/unit/datasets/test_ecommerce.py              |   27 +-\n",
-      " tests/unit/datasets/test_synthetic.py              |   15 +-\n",
-      " tests/unit/implicit/test_implicit.py               |   60 +-\n",
-      " tests/unit/lightfm/test_lightfm.py                 |   68 +\n",
-      " .../blocks/retrieval/test_matrix_factorization.py  |    7 +-\n",
-      " tests/unit/tf/blocks/retrieval/test_two_tower.py   |    9 +-\n",
-      " tests/unit/tf/blocks/test_cross.py                 |    2 -\n",
-      " tests/unit/tf/blocks/test_interactions.py          |    6 +-\n",
-      " tests/unit/tf/blocks/test_mlp.py                   |   39 +\n",
-      " tests/unit/tf/blocks/test_optimizer.py             |   64 +-\n",
-      " tests/unit/tf/core/test_base.py                    |    5 +-\n",
-      " tests/unit/tf/core/test_combinators.py             |    1 +\n",
-      " tests/unit/tf/core/test_encoder.py                 |    6 +-\n",
-      " tests/unit/tf/core/test_prediction.py              |    2 +-\n",
-      " tests/unit/tf/examples/test_01_getting_started.py  |    8 +-\n",
-      " .../examples/test_03_exploring_different_models.py |    8 +-\n",
-      " ...test_usecase_accelerate_training_by_lazyadam.py |    1 +\n",
-      " ..._usecase_incremental_training_layer_freezing.py |    2 +-\n",
-      " ...test_usecase_ranking_with_multitask_learning.py |   46 +\n",
-      " ...st_usecase_transformers_next_item_prediction.py |   36 +-\n",
-      " .../unit/tf/experimental}/__init__.py              |    0\n",
-      " tests/unit/tf/experimental/test_sample_weight.py   |  112 ++\n",
-      " tests/unit/tf/horovod/__init__.py                  |    2 +-\n",
-      " tests/unit/tf/horovod/test_embedding.py            |   46 +\n",
-      " tests/unit/tf/horovod/test_horovod.py              |   10 +-\n",
-      " tests/unit/tf/inputs/test_base.py                  |    2 +-\n",
-      " tests/unit/tf/inputs/test_block.py                 |  202 +++\n",
-      " tests/unit/tf/inputs/test_continuous.py            |    4 +-\n",
-      " tests/unit/tf/inputs/test_embedding.py             |   41 +-\n",
-      " tests/unit/tf/inputs/test_tabular.py               |   10 +-\n",
-      " tests/unit/tf/metrics/test_metrics_topk.py         |    2 -\n",
-      " tests/unit/tf/models/test_base.py                  |   93 +-\n",
-      " tests/unit/tf/models/test_benchmark.py             |   13 +-\n",
-      " tests/unit/tf/models/test_ranking.py               |  103 +-\n",
-      " tests/unit/tf/models/test_retrieval.py             |   35 +-\n",
-      " tests/unit/tf/outputs/test_base.py                 |   78 +-\n",
-      " tests/unit/tf/outputs/test_block.py                |  936 +++++++++++\n",
-      " tests/unit/tf/outputs/test_classification.py       |   69 +-\n",
-      " tests/unit/tf/outputs/test_contrastive.py          |   28 +-\n",
-      " tests/unit/tf/outputs/test_sampling.py             |   17 +-\n",
-      " tests/unit/tf/prediction_tasks/test_multi_task.py  |  281 +++-\n",
-      " tests/unit/tf/test_loader.py                       |   28 +-\n",
-      " tests/unit/tf/transformers/test_block.py           |  187 ++-\n",
-      " tests/unit/tf/transforms/test_features.py          |  123 +-\n",
-      " tests/unit/tf/transforms/test_negative_sampling.py |   63 +-\n",
-      " tests/unit/tf/transforms/test_noise.py             |    1 -\n",
-      " tests/unit/tf/transforms/test_sequence.py          |   55 +-\n",
-      " tests/unit/tf/transforms/test_tensor.py            |   20 +-\n",
-      " tests/unit/tf/utils/test_batch.py                  |   20 +-\n",
-      " tests/unit/torch/__init__.py                       |   18 -\n",
-      " tests/unit/torch/_conftest.py                      |  151 --\n",
-      " tests/unit/torch/block/__init__.py                 |   15 -\n",
-      " tests/unit/torch/block/test_base.py                |   62 -\n",
-      " tests/unit/torch/block/test_mlp.py                 |   30 -\n",
-      " tests/unit/torch/features/__init__.py              |   15 -\n",
-      " tests/unit/torch/features/test_continuous.py       |   34 -\n",
-      " tests/unit/torch/features/test_embedding.py        |  250 ---\n",
-      " tests/unit/torch/features/test_tabular.py          |   84 -\n",
-      " tests/unit/torch/model/__init__.py                 |   15 -\n",
-      " tests/unit/torch/model/test_head.py                |   92 --\n",
-      " tests/unit/torch/model/test_model.py               |  122 --\n",
-      " tests/unit/torch/tabular/__init__.py               |   15 -\n",
-      " tests/unit/torch/tabular/test_aggregation.py       |  106 --\n",
-      " tests/unit/torch/tabular/test_tabular.py           |   88 -\n",
-      " tests/unit/torch/tabular/test_transformations.py   |  122 --\n",
-      " tests/unit/torch/test_dataloader_utils.py          |   86 -\n",
-      " tests/unit/torch/test_losses.py                    |   53 -\n",
-      " tests/unit/torch/test_public_api.py                |   27 -\n",
-      " tests/unit/torch/utils/__init__.py                 |   15 -\n",
-      " tests/unit/xgb/test_xgboost.py                     |    2 +-\n",
-      " tox.ini                                            |   78 +-\n",
-      " 210 files changed, 10688 insertions(+), 8019 deletions(-)\n",
-      " delete mode 100644 .github/workflows/blossom-ci.yml\n",
-      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
-      " create mode 100644 .github/workflows/cpu-horovod.yml\n",
-      " create mode 100644 .github/workflows/cpu-t4r.yml\n",
-      " create mode 100644 .github/workflows/multi-gpu-ci.yml\n",
-      " create mode 100644 .github/workflows/packages.yaml\n",
-      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
-      " create mode 100644 examples/images/mtl_architectures.png\n",
-      " create mode 100644 examples/usecases/multi-gpu/install_sparse_operation_kit.sh\n",
-      " create mode 100644 examples/usecases/ranking_with_multitask_learning.ipynb\n",
-      " rename merlin/{models/torch/block => datasets/entertainment/tenrec_video}/__init__.py (100%)\n",
-      " create mode 100644 merlin/datasets/entertainment/tenrec_video/schema.pbtxt\n",
-      " create mode 100644 merlin/models/tf/distributed/embedding.py\n",
-      " create mode 100644 merlin/models/tf/experimental/sample_weight.py\n",
-      " create mode 100644 merlin/models/tf/outputs/block.py\n",
-      " delete mode 100644 merlin/models/torch/__init__.py\n",
-      " delete mode 100644 merlin/models/torch/block/base.py\n",
-      " delete mode 100644 merlin/models/torch/block/mlp.py\n",
-      " delete mode 100644 merlin/models/torch/features/base.py\n",
-      " delete mode 100644 merlin/models/torch/features/continuous.py\n",
-      " delete mode 100644 merlin/models/torch/features/embedding.py\n",
-      " delete mode 100644 merlin/models/torch/features/tabular.py\n",
-      " delete mode 100644 merlin/models/torch/losses.py\n",
-      " delete mode 100644 merlin/models/torch/model/__init__.py\n",
-      " delete mode 100644 merlin/models/torch/model/base.py\n",
-      " delete mode 100644 merlin/models/torch/model/prediction_task.py\n",
-      " delete mode 100644 merlin/models/torch/tabular/__init__.py\n",
-      " delete mode 100644 merlin/models/torch/tabular/aggregation.py\n",
-      " delete mode 100644 merlin/models/torch/tabular/base.py\n",
-      " delete mode 100644 merlin/models/torch/tabular/transformations.py\n",
-      " delete mode 100644 merlin/models/torch/typing.py\n",
-      " delete mode 100644 merlin/models/torch/utils/__init__.py\n",
-      " delete mode 100644 merlin/models/torch/utils/data_utils.py\n",
-      " delete mode 100644 merlin/models/torch/utils/examples_utils.py\n",
-      " delete mode 100644 merlin/models/torch/utils/torch_utils.py\n",
-      " create mode 100644 pytest.ini\n",
-      " create mode 100644 requirements/horovod-cpu-environment.yml\n",
-      " create mode 100644 tests/unit/tf/examples/test_usecase_ranking_with_multitask_learning.py\n",
-      " rename {merlin/models/torch/features => tests/unit/tf/experimental}/__init__.py (100%)\n",
-      " create mode 100644 tests/unit/tf/experimental/test_sample_weight.py\n",
-      " create mode 100644 tests/unit/tf/horovod/test_embedding.py\n",
-      " create mode 100644 tests/unit/tf/inputs/test_block.py\n",
-      " create mode 100644 tests/unit/tf/outputs/test_block.py\n",
-      " delete mode 100644 tests/unit/torch/__init__.py\n",
-      " delete mode 100644 tests/unit/torch/_conftest.py\n",
-      " delete mode 100644 tests/unit/torch/block/__init__.py\n",
-      " delete mode 100644 tests/unit/torch/block/test_base.py\n",
-      " delete mode 100644 tests/unit/torch/block/test_mlp.py\n",
-      " delete mode 100644 tests/unit/torch/features/__init__.py\n",
-      " delete mode 100644 tests/unit/torch/features/test_continuous.py\n",
-      " delete mode 100644 tests/unit/torch/features/test_embedding.py\n",
-      " delete mode 100644 tests/unit/torch/features/test_tabular.py\n",
-      " delete mode 100644 tests/unit/torch/model/__init__.py\n",
-      " delete mode 100644 tests/unit/torch/model/test_head.py\n"
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      " * [new branch]      feature/merlin-array-dispatch -> origin/feature/merlin-array-dispatch\n",
+      " * [new branch]      fix-repartition     -> origin/fix-repartition\n",
+      " * [new branch]      fix-with-properties -> origin/fix-with-properties\n",
+      " * [new branch]      gh-pages            -> origin/gh-pages\n",
+      " * [new branch]      laiacano/docs-on-pr -> origin/laiacano/docs-on-pr\n",
+      " * [new branch]      main                -> origin/main\n",
+      " * [new branch]      release-22.10       -> origin/release-22.10\n",
+      " * [new branch]      release-22.11       -> origin/release-22.11\n",
+      " * [new branch]      release-22.12       -> origin/release-22.12\n",
+      " * [new branch]      release-23.02       -> origin/release-23.02\n",
+      " * [new branch]      release-23.04       -> origin/release-23.04\n",
+      " * [new branch]      revert-163-refactor/dictarray-columns -> origin/revert-163-refactor/dictarray-columns\n",
+      " * [new branch]      stable              -> origin/stable\n",
+      " * [new branch]      tags-intersection   -> origin/tags-intersection\n",
+      " * [new branch]      v0.2.0-docs         -> origin/v0.2.0-docs\n",
+      " * [new tag]         v0.10.0             -> v0.10.0\n",
+      " * [new tag]         v0.8.0              -> v0.8.0\n",
+      " * [new tag]         v0.9.0              -> v0.9.0\n",
+      " * [new tag]         v23.02.01           -> v23.02.01\n",
+      " * [new tag]         v23.04.00           -> v23.04.00\n",
+      " * [new tag]           v0.1.0              -> v0.1.0\n",
+      " * [new tag]           v0.1.1              -> v0.1.1\n",
+      " * [new tag]           v0.2.0              -> v0.2.0\n",
+      " * [new tag]           v0.3.0              -> v0.3.0\n",
+      " * [new tag]           v0.4.0              -> v0.4.0\n",
+      " * [new tag]           v0.5.0              -> v0.5.0\n",
+      " * [new tag]           v0.6.0              -> v0.6.0\n",
+      " * [new tag]           v0.7.0              -> v0.7.0\n",
+      " * [new tag]           v23.05.dev0         -> v23.05.dev0\n",
+      "Previous HEAD position was a824ab7a import pytest\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      " delete mode 100644 tests/unit/torch/model/test_model.py\n",
-      " delete mode 100644 tests/unit/torch/tabular/__init__.py\n",
-      " delete mode 100644 tests/unit/torch/tabular/test_aggregation.py\n",
-      " delete mode 100644 tests/unit/torch/tabular/test_tabular.py\n",
-      " delete mode 100644 tests/unit/torch/tabular/test_transformations.py\n",
-      " delete mode 100644 tests/unit/torch/test_dataloader_utils.py\n",
-      " delete mode 100644 tests/unit/torch/test_losses.py\n",
-      " delete mode 100644 tests/unit/torch/test_public_api.py\n",
-      " delete mode 100644 tests/unit/torch/utils/__init__.py\n",
-      "Processing /models\n",
-      "  Installing build dependencies: started\n",
-      "  Installing build dependencies: finished with status 'done'\n",
-      "  Getting requirements to build wheel: started\n",
-      "  Getting requirements to build wheel: finished with status 'done'\n",
-      "    Preparing wheel metadata: started\n",
-      "    Preparing wheel metadata: finished with status 'done'\n",
-      "Collecting merlin-core>=23.4.0\n",
-      "  Downloading merlin-core-23.4.0.tar.gz (133 kB)\n",
-      "  Installing build dependencies: started\n",
-      "  Installing build dependencies: finished with status 'done'\n",
-      "  Getting requirements to build wheel: started\n",
-      "  Getting requirements to build wheel: finished with status 'done'\n",
-      "    Preparing wheel metadata: started\n",
-      "    Preparing wheel metadata: finished with status 'done'\n",
-      "Collecting merlin-dataloader>=23.4.0\n",
-      "  Downloading merlin-dataloader-23.4.0.tar.gz (46 kB)\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /core\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
       "  Getting requirements to build wheel: started\n",
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (22.0)\n",
-      "Collecting fsspec>=2022.7.1\n",
-      "  Downloading fsspec-2023.5.0-py3-none-any.whl (160 kB)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.22.4)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.56.4)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.19.6)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.64.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (8.0.0)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.12.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.2.5)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (11.4.1)\n",
-      "Collecting dask>=2022.11.1\n",
-      "  Downloading dask-2023.4.1-py3-none-any.whl (1.2 MB)\n",
-      "Collecting distributed>=2022.11.1\n",
-      "  Downloading distributed-2023.4.1-py3-none-any.whl (962 kB)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.5)\n",
-      "Collecting dask-cuda>=22.12.0\n",
-      "  Downloading dask_cuda-23.4.0-py3-none-any.whl (125 kB)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (5.2.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.2.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (0.12.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.2.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (8.1.3)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.26.13)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (5.9.4)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.2.0)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.4.0)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.1)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.7.0)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.4)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.0)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.1.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.8.2)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (3.11.0)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.1.0)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0.4)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (2.1.1)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (1.14.0)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->merlin-models==0.9.0+157.gd8133b8f) (6.0.1)\n",
-      "Building wheels for collected packages: merlin-models, merlin-core, merlin-dataloader\n",
-      "  Building wheel for merlin-models (PEP 517): started\n",
-      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-models: filename=merlin_models-0.9.0+157.gd8133b8f-py3-none-any.whl size=343257 sha256=2c9ef3392cbe77d1daad7c766b221d7bec14cc3c18c7b000c9312e00a7d1a16f\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-5qnt9sgn/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Building wheels for collected packages: merlin-core\n",
       "  Building wheel for merlin-core (PEP 517): started\n",
       "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-23.4.0-py3-none-any.whl size=159556 sha256=f8418cb4ec8a321feabf92606e7da3f7e6f913de2757c44ea02db38e7ea51494\n",
-      "  Stored in directory: /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7\n",
-      "  Building wheel for merlin-dataloader (PEP 517): started\n",
-      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.4.0-py3-none-any.whl size=34732 sha256=e09b59834d26dbdb9418925dc395adf47d9ea26c53daea3d18cdb79d5211d04b\n",
-      "  Stored in directory: /root/.cache/pip/wheels/90/b0/66/48e52cc29f544ffbd105154b8be0901b5bb80cc85842b778fc\n",
-      "Successfully built merlin-models merlin-core merlin-dataloader\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
-      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty requires cupy-cuda118<12,>=9.5.0, which is not installed.\n",
-      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement dask==2022.7.1, but you'll have dask 2023.4.1 which is incompatible.\n",
-      "ERROR: dask-cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement distributed==2022.7.1, but you'll have distributed 2023.4.1 which is incompatible.\n",
-      "ERROR: dask-cuda 23.4.0 has requirement dask==2023.3.2, but you'll have dask 2023.4.1 which is incompatible.\n",
-      "ERROR: dask-cuda 23.4.0 has requirement distributed==2023.3.2.1, but you'll have distributed 2023.4.1 which is incompatible.\n",
-      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement cuda-python<11.7.1,>=11.5, but you'll have cuda-python 11.8.1 which is incompatible.\n",
-      "ERROR: cudf 22.8.0a0+304.g6ca81bbc78.dirty has requirement protobuf<3.21.0a0,>=3.20.1, but you'll have protobuf 3.19.6 which is incompatible.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Installing collected packages: fsspec, dask, distributed, dask-cuda, merlin-core, merlin-dataloader, merlin-models\n",
-      "  Attempting uninstall: fsspec\n",
-      "    Found existing installation: fsspec 2022.5.0\n",
-      "    Uninstalling fsspec-2022.5.0:\n",
-      "      Successfully uninstalled fsspec-2022.5.0\n",
-      "  Attempting uninstall: dask\n",
-      "    Found existing installation: dask 2022.7.1\n",
-      "    Uninstalling dask-2022.7.1:\n",
-      "      Successfully uninstalled dask-2022.7.1\n",
-      "  Attempting uninstall: distributed\n",
-      "    Found existing installation: distributed 2022.7.1\n",
-      "    Uninstalling distributed-2022.7.1:\n",
-      "      Successfully uninstalled distributed-2022.7.1\n",
-      "  Attempting uninstall: dask-cuda\n",
-      "    Found existing installation: dask-cuda 22.8.0a0+36.g9860cad\n",
-      "    Uninstalling dask-cuda-22.8.0a0+36.g9860cad:\n",
-      "      Successfully uninstalled dask-cuda-22.8.0a0+36.g9860cad\n",
+      "  Created wheel for merlin-core: filename=merlin_core-23.5.dev0+21.ga0bcd30f-py3-none-any.whl size=161483 sha256=46bd0c2ab8672b0d312287b28514d5dc920be76bc42454a91acdc29c3e603e45\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ynb25ulq/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n",
+      "Installing collected packages: merlin-core\n",
       "  Attempting uninstall: merlin-core\n",
-      "    Found existing installation: merlin-core 0.10.0\n",
-      "    Uninstalling merlin-core-0.10.0:\n",
-      "      Successfully uninstalled merlin-core-0.10.0\n",
-      "  Attempting uninstall: merlin-dataloader\n",
-      "    Found existing installation: merlin-dataloader 0.0.4\n",
-      "    Uninstalling merlin-dataloader-0.0.4:\n",
-      "      Successfully uninstalled merlin-dataloader-0.0.4\n",
-      "  Attempting uninstall: merlin-models\n",
-      "    Found existing installation: merlin-models 0.11.0\n",
-      "    Uninstalling merlin-models-0.11.0:\n",
-      "      Successfully uninstalled merlin-models-0.11.0\n",
-      "Successfully installed dask-2023.4.1 dask-cuda-23.4.0 distributed-2023.4.1 fsspec-2023.5.0 merlin-core-23.4.0 merlin-dataloader-23.4.0 merlin-models-0.9.0+157.gd8133b8f\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "Previous HEAD position was 2fc6889 add schema parameter to the `repartition` method (#192)\n",
-      "Switched to branch 'main'\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Your branch is up to date with 'origin/main'.\n"
+      "    Found existing installation: merlin-core 23.2.0\n",
+      "    Uninstalling merlin-core-23.2.0:\n",
+      "      Successfully uninstalled merlin-core-23.2.0\n",
+      "Successfully installed merlin-core-23.5.dev0+21.ga0bcd30f\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "From https://github.com/NVIDIA-Merlin/core\n",
-      " * branch            main       -> FETCH_HEAD\n",
-      "   cd96ca5f..a0bcd30f main       -> origin/main\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Updating cd96ca5f..a0bcd30f\n",
-      "Fast-forward\n",
-      " .github/actionlint.yaml                            |   5 +\n",
-      " .github/release-drafter.yml                        |  44 +--\n",
-      " .github/workflows/ISSUE_TEMPLATE/bug-report.md     |  17 +-\n",
-      " .../ISSUE_TEMPLATE/documentation-request.md        |  12 +-\n",
-      " .../workflows/ISSUE_TEMPLATE/feature-request.md    |   5 +-\n",
-      " .../workflows/ISSUE_TEMPLATE/submit-question.md    |   3 +-\n",
-      " .github/workflows/ISSUE_TEMPLATE/task.md           |   5 +-\n",
-      " .github/workflows/check-base-branch.yaml           |   9 +\n",
-      " .github/workflows/cpu-ci.yml                       | 138 +-------\n",
-      " .github/workflows/cpu-models.yml                   |  44 ---\n",
-      " .github/workflows/cpu-nvtabular.yml                |  44 ---\n",
-      " .github/workflows/cpu-systems.yml                  |  44 ---\n",
-      " .github/workflows/docs-preview-pr.yaml             |   4 +-\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |  51 +--\n",
-      " .github/workflows/gpu-ci.yml                       |  52 ++-\n",
-      " .github/workflows/lint.yaml                        |  11 +-\n",
-      " .github/workflows/merlin.yml                       |  35 ++\n",
-      " .github/workflows/packages.yaml                    | 154 ++++++++\n",
-      " .github/workflows/release-drafter.yaml             |   4 +-\n",
-      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
-      " .github/workflows/tox.yml                          |  38 ++\n",
-      " .pre-commit-config.yaml                            |  55 +--\n",
-      " .prettierignore                                    |   2 +\n",
-      " CLA.md                                             |   9 +-\n",
-      " CONTRIBUTING.md                                    |  28 +-\n",
-      " README.md                                          |  68 ++--\n",
-      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
-      " conda/recipe/meta.yaml                             |   4 +-\n",
-      " docs/README.md                                     |  49 ++-\n",
-      " merlin/core/compat/__init__.py                     | 143 ++++++++\n",
-      " merlin/core/compat/tensorflow.py                   |  92 +++++\n",
-      " merlin/core/compat/torch.py                        |  22 ++\n",
-      " merlin/core/dispatch.py                            | 245 ++++++++-----\n",
-      " merlin/core/has_gpu.py                             |  46 +++\n",
-      " merlin/core/utils.py                               |  88 +----\n",
-      " merlin/dag/__init__.py                             |   1 +\n",
-      " merlin/dag/base_operator.py                        |  30 +-\n",
-      " merlin/dag/dictarray.py                            |   3 +-\n",
-      " merlin/dag/executors.py                            | 242 +++++++------\n",
-      " merlin/dag/graph.py                                |  20 ++\n",
-      " merlin/dag/node.py                                 |   5 +-\n",
-      " merlin/dag/selector.py                             |  10 +-\n",
-      " merlin/dag/utils.py                                |  69 ++++\n",
-      " merlin/dispatch/lazy.py                            | 156 +++++++++\n",
-      " merlin/dtypes/__init__.py                          |  61 ++++\n",
-      " merlin/dtypes/aliases.py                           |  53 +++\n",
-      " merlin/dtypes/base.py                              | 179 ++++++++++\n",
-      " merlin/dtypes/mapping.py                           | 177 ++++++++++\n",
-      " .../compat.py => dtypes/mappings/__init__.py}      |  17 +-\n",
-      " merlin/dtypes/mappings/cudf.py                     |  61 ++++\n",
-      " merlin/dtypes/mappings/merlin.py                   |  51 +++\n",
-      " merlin/dtypes/mappings/numpy.py                    |  52 +++\n",
-      " merlin/dtypes/mappings/pandas.py                   |  38 ++\n",
-      " merlin/dtypes/mappings/python.py                   |  28 ++\n",
-      " merlin/dtypes/mappings/tf.py                       |  52 +++\n",
-      " merlin/dtypes/mappings/torch.py                    |  43 +++\n",
-      " merlin/dtypes/mappings/triton.py                   |  53 +++\n",
-      " merlin/dtypes/registry.py                          | 136 ++++++++\n",
-      " merlin/dtypes/shape.py                             | 200 +++++++++++\n",
-      " merlin/io/__init__.py                              |   2 +-\n",
-      " merlin/io/avro.py                                  |   6 +-\n",
-      " merlin/io/csv.py                                   |   9 +-\n",
-      " merlin/io/dask.py                                  |  74 +++-\n",
-      " merlin/io/dataframe_engine.py                      |   6 +-\n",
-      " merlin/io/dataset.py                               | 112 ++++--\n",
-      " merlin/io/fsspec_utils.py                          |  16 +-\n",
-      " merlin/io/parquet.py                               |  25 +-\n",
-      " merlin/io/shuffle.py                               |  13 +-\n",
-      " merlin/io/worker.py                                | 104 +++---\n",
-      " merlin/io/writer.py                                |   7 +-\n",
-      " merlin/io/writer_factory.py                        |  10 +-\n",
-      " merlin/schema/io/tensorflow_metadata.py            | 115 ++++--\n",
-      " merlin/schema/schema.py                            | 331 +++++++++++-------\n",
-      " merlin/schema/tags.py                              |   7 +-\n",
-      " merlin/table/__init__.py                           |  24 ++\n",
-      " merlin/table/conversions.py                        | 226 ++++++++++++\n",
-      " merlin/table/cupy_column.py                        | 108 ++++++\n",
-      " merlin/table/numpy_column.py                       | 122 +++++++\n",
-      " merlin/table/tensor_column.py                      | 261 ++++++++++++++\n",
-      " merlin/table/tensor_table.py                       | 294 ++++++++++++++++\n",
-      " merlin/table/tensorflow_column.py                  | 173 +++++++++\n",
-      " merlin/table/torch_column.py                       | 135 +++++++\n",
-      " requirements-gpu.txt                               |   2 +-\n",
-      " requirements.txt                                   |  13 +-\n",
-      " tests/conftest.py                                  |  35 +-\n",
-      " tests/unit/core/test_dispatch.py                   |  43 ++-\n",
-      " tests/unit/core/test_protocols.py                  |  10 +-\n",
-      " tests/unit/core/test_version.py                    |   2 +\n",
-      " tests/unit/dag/test_column_selector.py             |   6 +\n",
-      " tests/unit/dag/test_dag_utils.py                   |  31 ++\n",
-      " tests/unit/dispatch/test_lazy_dispatch.py          |  61 ++++\n",
-      " tests/unit/dtypes/test_cudf.py                     |  30 ++\n",
-      " tests/unit/dtypes/test_module.py                   |  61 ++++\n",
-      " tests/unit/dtypes/test_shape.py                    | 222 ++++++++++++\n",
-      " tests/unit/io/test_avro.py                         |   8 +-\n",
-      " tests/unit/io/test_dataset.py                      |  51 +++\n",
-      " tests/unit/io/test_io.py                           |  95 ++++-\n",
-      " tests/unit/io/test_worker.py                       | 142 ++++++++\n",
-      " tests/unit/schema/test_column_schemas.py           | 142 +++++---\n",
-      " tests/unit/schema/test_schema.py                   |  60 +++-\n",
-      " tests/unit/schema/test_schema_io.py                |  54 ++-\n",
-      " tests/unit/table/test_convert_column.py            | 164 +++++++++\n",
-      " tests/unit/table/test_tensor_column.py             | 262 ++++++++++++++\n",
-      " tests/unit/table/test_tensor_table.py              | 387 +++++++++++++++++++++\n",
-      " tests/unit/utils/test_utils.py                     |  16 +-\n",
-      " tox.ini                                            |  49 ++-\n",
-      " 106 files changed, 6299 insertions(+), 1146 deletions(-)\n",
-      " create mode 100644 .github/actionlint.yaml\n",
-      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
-      " delete mode 100644 .github/workflows/cpu-models.yml\n",
-      " delete mode 100644 .github/workflows/cpu-nvtabular.yml\n",
-      " delete mode 100644 .github/workflows/cpu-systems.yml\n",
-      " create mode 100644 .github/workflows/merlin.yml\n",
-      " create mode 100644 .github/workflows/packages.yaml\n",
-      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
-      " create mode 100644 .github/workflows/tox.yml\n",
-      " create mode 100644 .prettierignore\n",
-      " create mode 100644 merlin/core/compat/__init__.py\n",
-      " create mode 100644 merlin/core/compat/tensorflow.py\n",
-      " create mode 100644 merlin/core/compat/torch.py\n",
-      " create mode 100644 merlin/core/has_gpu.py\n",
-      " create mode 100644 merlin/dag/utils.py\n",
-      " create mode 100644 merlin/dispatch/lazy.py\n",
-      " create mode 100644 merlin/dtypes/__init__.py\n",
-      " create mode 100644 merlin/dtypes/aliases.py\n",
-      " create mode 100644 merlin/dtypes/base.py\n",
-      " create mode 100644 merlin/dtypes/mapping.py\n",
-      " rename merlin/{core/compat.py => dtypes/mappings/__init__.py} (60%)\n",
-      " create mode 100644 merlin/dtypes/mappings/cudf.py\n",
-      " create mode 100644 merlin/dtypes/mappings/merlin.py\n",
-      " create mode 100644 merlin/dtypes/mappings/numpy.py\n",
-      " create mode 100644 merlin/dtypes/mappings/pandas.py\n",
-      " create mode 100644 merlin/dtypes/mappings/python.py\n",
-      " create mode 100644 merlin/dtypes/mappings/tf.py\n",
-      " create mode 100644 merlin/dtypes/mappings/torch.py\n"
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * [new branch]      chore/comprehensive-shapes -> origin/chore/comprehensive-shapes\n",
+      " * [new branch]      chore/packages-action  -> origin/chore/packages-action\n",
+      " * [new branch]      collabify_examples     -> origin/collabify_examples\n",
+      " * [new branch]      docs-add-seo           -> origin/docs-add-seo\n",
+      " * [new branch]      docs-calver-banner     -> origin/docs-calver-banner\n",
+      " * [new branch]      ds-api                 -> origin/ds-api\n",
+      " * [new branch]      feature/embedding-tags -> origin/feature/embedding-tags\n",
+      " * [new branch]      fix-sparse-logic       -> origin/fix-sparse-logic\n",
+      " * [new branch]      fix/tf-batch-size-warning -> origin/fix/tf-batch-size-warning\n",
+      " * [new branch]      gh-pages               -> origin/gh-pages\n",
+      " * [new branch]      gha-test               -> origin/gha-test\n",
+      " * [new branch]      laiacano/docs-pr       -> origin/laiacano/docs-pr\n",
+      " * [new branch]      main                   -> origin/main\n",
+      " * [new branch]      no_gpu                 -> origin/no_gpu\n",
+      " * [new branch]      release-22.11          -> origin/release-22.11\n",
+      " * [new branch]      release-22.12          -> origin/release-22.12\n",
+      " * [new branch]      release-23.02          -> origin/release-23.02\n",
+      " * [new branch]      release-23.04          -> origin/release-23.04\n",
+      " * [new branch]      stable                 -> origin/stable\n",
+      " * [new branch]      update_github_actions  -> origin/update_github_actions\n",
+      " * [new tag]         v0.0.3                 -> v0.0.3\n",
+      " * [new tag]         v0.0.4                 -> v0.0.4\n",
+      " * [new tag]         v23.02.01              -> v23.02.01\n",
+      " * [new tag]         v23.04.00              -> v23.04.00\n",
+      " * [new tag]         v0.0.1                 -> v0.0.1\n",
+      " * [new tag]         v0.0.2                 -> v0.0.2\n",
+      " * [new tag]         v23.05.dev0            -> v23.05.dev0\n",
+      "Previous HEAD position was 02aad21 Replace `nnzs` with `row_lengths` for clarity (#99)\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      " create mode 100644 merlin/dtypes/mappings/triton.py\n",
-      " create mode 100644 merlin/dtypes/registry.py\n",
-      " create mode 100644 merlin/dtypes/shape.py\n",
-      " create mode 100644 merlin/table/__init__.py\n",
-      " create mode 100644 merlin/table/conversions.py\n",
-      " create mode 100644 merlin/table/cupy_column.py\n",
-      " create mode 100644 merlin/table/numpy_column.py\n",
-      " create mode 100644 merlin/table/tensor_column.py\n",
-      " create mode 100644 merlin/table/tensor_table.py\n",
-      " create mode 100644 merlin/table/tensorflow_column.py\n",
-      " create mode 100644 merlin/table/torch_column.py\n",
-      " create mode 100644 tests/unit/dag/test_dag_utils.py\n",
-      " create mode 100644 tests/unit/dispatch/test_lazy_dispatch.py\n",
-      " create mode 100644 tests/unit/dtypes/test_cudf.py\n",
-      " create mode 100644 tests/unit/dtypes/test_module.py\n",
-      " create mode 100644 tests/unit/dtypes/test_shape.py\n",
-      " create mode 100644 tests/unit/io/test_dataset.py\n",
-      " create mode 100644 tests/unit/io/test_worker.py\n",
-      " create mode 100644 tests/unit/table/test_convert_column.py\n",
-      " create mode 100644 tests/unit/table/test_tensor_column.py\n",
-      " create mode 100644 tests/unit/table/test_tensor_table.py\n",
-      "Processing /core\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /dataloader\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
       "  Getting requirements to build wheel: started\n",
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.3.5)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (4.64.1)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.12.0)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (0.56.4)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (22.0)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (23.4.0)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (3.19.6)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (11.4.1)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.5.0)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.22.4)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (8.0.0)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (2023.4.1)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core==0.9.0+125.ga0bcd30f) (1.2.5)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (2.8.2)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.57.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (45.2.0)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (0.39.1)\n",
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.3.0)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.2.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (8.1.3)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (0.12.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.7.0)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (6.1)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.0)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (5.9.4)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.4.0)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.26.13)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (3.1.2)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (1.0.4)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (0.4.3)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (1.2.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core==0.9.0+125.ga0bcd30f) (1.14.0)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core==0.9.0+125.ga0bcd30f) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core==0.9.0+125.ga0bcd30f) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core==0.9.0+125.ga0bcd30f) (2.1.1)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.4)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.1.0)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (4.0.0)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core==0.9.0+125.ga0bcd30f) (6.0.1)\n",
-      "Building wheels for collected packages: merlin-core\n",
-      "  Building wheel for merlin-core (PEP 517): started\n",
-      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-core: filename=merlin_core-0.9.0+125.ga0bcd30f-py3-none-any.whl size=161449 sha256=0c37c110ad7a9dc1a4721b776063e9d1571a000763322b27df7ea731ae78164e\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-yeu5mq1c/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
-      "Successfully built merlin-core\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "ERROR: merlin-models 0.9.0+157.gd8133b8f has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n",
-      "ERROR: merlin-dataloader 23.4.0 has requirement merlin-core>=23.4.0, but you'll have merlin-core 0.9.0+125.ga0bcd30f which is incompatible.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Installing collected packages: merlin-core\n",
-      "  Attempting uninstall: merlin-core\n",
-      "    Found existing installation: merlin-core 23.4.0\n",
-      "    Uninstalling merlin-core-23.4.0:\n",
-      "      Successfully uninstalled merlin-core-23.4.0\n",
-      "Successfully installed merlin-core-0.9.0+125.ga0bcd30f\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "Previous HEAD position was 020b24b7 Fix output error occurring due to  check if it is a dict or not (#1742)\n",
-      "Switched to branch 'main'\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Your branch is up to date with 'origin/main'.\n"
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.5.dev0+8.gd9e97b4-py3-none-any.whl size=34916 sha256=607302e63f936c0f5d381f67a9d388d72c5f1883fc7ba595863caee1d38277b3\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-p8vl5h52/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n",
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 23.2.0\n",
+      "    Uninstalling merlin-dataloader-23.2.0:\n",
+      "      Successfully uninstalled merlin-dataloader-23.2.0\n",
+      "Successfully installed merlin-dataloader-23.5.dev0+8.gd9e97b4\n"
      ]
     },
     {
@@ -764,119 +137,116 @@
      "output_type": "stream",
      "text": [
       "From https://github.com/NVIDIA-Merlin/NVTabular\n",
-      " * branch              main       -> FETCH_HEAD\n",
-      "   c5bc4098..67136eba  main       -> origin/main\n"
+      " * [new branch]      1077-implement          -> origin/1077-implement\n",
+      " * [new branch]      21.09/column-tagging    -> origin/21.09/column-tagging\n",
+      " * [new branch]      21.09/dataset-collection -> origin/21.09/dataset-collection\n",
+      " * [new branch]      21.09/operator-block    -> origin/21.09/operator-block\n",
+      " * [new branch]      21.09/schema            -> origin/21.09/schema\n",
+      " * [new branch]      add_sum_to_supported_aggregations -> origin/add_sum_to_supported_aggregations\n",
+      " * [new branch]      aiobotocore_v2          -> origin/aiobotocore_v2\n",
+      " * [new branch]      alexanderronquillo-patch-1 -> origin/alexanderronquillo-patch-1\n",
+      " * [new branch]      automate_pypi           -> origin/automate_pypi\n",
+      " * [new branch]      bench-pynvml-fix        -> origin/bench-pynvml-fix\n",
+      " * [new branch]      branch-0.6              -> origin/branch-0.6\n",
+      " * [new branch]      bschifferer-remove_examples_1 -> origin/bschifferer-remove_examples_1\n",
+      " * [new branch]      categorify-inference-int16 -> origin/categorify-inference-int16\n",
+      " * [new branch]      columns_with_aggs_in_names -> origin/columns_with_aggs_in_names\n",
+      " * [new branch]      conda-package-python-versions -> origin/conda-package-python-versions\n",
+      " * [new branch]      conda_gh_action         -> origin/conda_gh_action\n",
+      " * [new branch]      dataloader-remove-sparse -> origin/dataloader-remove-sparse\n",
+      " * [new branch]      dataloader_doc_fix      -> origin/dataloader_doc_fix\n",
+      " * [new branch]      disable-package-build-on-pull-requests -> origin/disable-package-build-on-pull-requests\n",
+      " * [new branch]      dont_install_tests      -> origin/dont_install_tests\n",
+      " * [new branch]      drop_low_cardinality    -> origin/drop_low_cardinality\n",
+      " * [new branch]      fix-docs-tox-env        -> origin/fix-docs-tox-env\n",
+      " * [new branch]      fix-wf-file             -> origin/fix-wf-file\n",
+      " * [new branch]      fix/inference-deprecation -> origin/fix/inference-deprecation\n",
+      " * [new branch]      fix_data_path           -> origin/fix_data_path\n",
+      " * [new branch]      fix_hugectr_nb          -> origin/fix_hugectr_nb\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      groupby_without_groupby_col_in_col_selector -> origin/groupby_without_groupby_col_in_col_selector\n",
+      " * [new branch]      hugectr-newapi          -> origin/hugectr-newapi\n",
+      " * [new branch]      laiacano/check-list-from-schema -> origin/laiacano/check-list-from-schema\n",
+      " * [new branch]      laiacano/workflow-subgraph -> origin/laiacano/workflow-subgraph\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      na_sentinel             -> origin/na_sentinel\n",
+      " * [new branch]      notebooks-21.10         -> origin/notebooks-21.10\n",
+      " * [new branch]      nvt-1195                -> origin/nvt-1195\n",
+      " * [new branch]      nvtabular_examples      -> origin/nvtabular_examples\n",
+      " * [new branch]      packages-workflow-split -> origin/packages-workflow-split\n",
+      " * [new branch]      readme_updates          -> origin/readme_updates\n",
+      " * [new branch]      refactor/fit-schema     -> origin/refactor/fit-schema\n",
+      " * [new branch]      refactor/input-column-selection -> origin/refactor/input-column-selection\n",
+      " * [new branch]      refactor/postpone-schema-binding -> origin/refactor/postpone-schema-binding\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      remove_poetry           -> origin/remove_poetry\n",
+      " * [new branch]      remove_release_notes    -> origin/remove_release_notes\n",
+      " * [new branch]      repeat-ops              -> origin/repeat-ops\n",
+      " * [new branch]      rjzamora-simplify-criteo -> origin/rjzamora-simplify-criteo\n",
+      " * [new branch]      rnyak-patch-1           -> origin/rnyak-patch-1\n",
+      " * [new branch]      romeyn/input-api        -> origin/romeyn/input-api\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      test-column-similarity-dataset-cpu-default-none -> origin/test-column-similarity-dataset-cpu-default-none\n",
+      " * [new branch]      test-torch-dataloader-dataset-cpu-default-none -> origin/test-torch-dataloader-dataset-cpu-default-none\n",
+      " * [new branch]      torch_catch             -> origin/torch_catch\n",
+      " * [new branch]      update-dask-reqs        -> origin/update-dask-reqs\n",
+      " * [new branch]      update_merlin_core      -> origin/update_merlin_core\n",
+      " * [new branch]      update_requirements     -> origin/update_requirements\n",
+      " * [new branch]      v0.10.0-docs            -> origin/v0.10.0-docs\n",
+      " * [new branch]      v0.11.0-docs            -> origin/v0.11.0-docs\n",
+      " * [new branch]      v0.7.1-docs             -> origin/v0.7.1-docs\n",
+      " * [new branch]      v0.8.0-docs             -> origin/v0.8.0-docs\n",
+      " * [new branch]      v0.9.0-docs             -> origin/v0.9.0-docs\n",
+      " * [new branch]      v1.0.0-docs             -> origin/v1.0.0-docs\n",
+      " * [new tag]         v0.6.1                  -> v0.6.1\n",
+      " * [new tag]         v1.6.0                  -> v1.6.0\n",
+      " * [new tag]         v1.7.0                  -> v1.7.0\n",
+      " * [new tag]         v1.8.1                  -> v1.8.1\n",
+      " * [new tag]         v23.04.00               -> v23.04.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.10.0                 -> v0.10.0\n",
+      " * [new tag]           v0.11.0                 -> v0.11.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n",
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.5.1                  -> v0.5.1\n",
+      " * [new tag]           v0.5.2                  -> v0.5.2\n",
+      " * [new tag]           v0.5.3                  -> v0.5.3\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.7.1                  -> v0.7.1\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v0.9.0                  -> v0.9.0\n",
+      " * [new tag]           v1.0.0                  -> v1.0.0\n",
+      " * [new tag]           v1.1.0                  -> v1.1.0\n",
+      " * [new tag]           v1.1.1                  -> v1.1.1\n",
+      " * [new tag]           v1.2.0                  -> v1.2.0\n",
+      " * [new tag]           v1.2.1                  -> v1.2.1\n",
+      " * [new tag]           v1.2.2                  -> v1.2.2\n",
+      " * [new tag]           v1.3.0                  -> v1.3.0\n",
+      " * [new tag]           v1.3.1                  -> v1.3.1\n",
+      " * [new tag]           v1.3.2                  -> v1.3.2\n",
+      " * [new tag]           v1.3.3                  -> v1.3.3\n",
+      " * [new tag]           v1.4.0                  -> v1.4.0\n",
+      " * [new tag]           v1.5.0                  -> v1.5.0\n",
+      " * [new tag]           v1.8.0                  -> v1.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Previous HEAD position was 371195ac Replace `nvtabular` inference back-end with `python` (#1771)\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating c5bc4098..67136eba\n",
-      "Fast-forward\n",
-      " .github/ISSUE_TEMPLATE/bug_report.md               |  11 +-\n",
-      " .github/ISSUE_TEMPLATE/documentation-request.md    |   3 +-\n",
-      " .github/ISSUE_TEMPLATE/feature_request.md          |   3 +-\n",
-      " .github/ISSUE_TEMPLATE/operator_request.md         |  14 +-\n",
-      " .github/ISSUE_TEMPLATE/research_question.md        |   3 +-\n",
-      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
-      " .github/ISSUE_TEMPLATE/task.md                     |   4 +-\n",
-      " .github/release-drafter.yml                        |  44 ++--\n",
-      " .github/workflows/blossom-ci.yml                   | 230 ++++++++++-----------\n",
-      " .github/workflows/check-base-branch.yaml           |   9 +\n",
-      " .github/workflows/conda-env-create.yml             |  30 +--\n",
-      " .github/workflows/cpu-ci.yml                       | 138 -------------\n",
-      " .github/workflows/cpu-packages.yml                 | 179 ++++++++++++++++\n",
-      " .github/workflows/cpu-tests.yml                    |  75 +++++++\n",
-      " .github/workflows/docs-preview-pr.yaml             |   4 +-\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |  30 ---\n",
-      " .github/workflows/gpu-tests.yml                    |  34 +++\n",
-      " .github/workflows/lint.yaml                        |   4 +\n",
-      " .github/workflows/release-drafter.yaml             |   2 +-\n",
-      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
-      " .gitlab-ci.yml                                     |  23 +--\n",
-      " .pre-commit-config.yaml                            |  47 +++--\n",
-      " .prettierignore                                    |   2 +\n",
-      " CHANGELOG.md                                       | 187 ++++++++---------\n",
-      " CONTRIBUTING.md                                    |  30 +--\n",
-      " README.md                                          |  48 ++---\n",
-      " bench/datasets/tools/nvt_etl.py                    |   4 +-\n",
-      " bench/datasets/tools/train_tensorflow.py           |   1 -\n",
-      " bench/examples/MultiGPUBench.md                    |  67 +++---\n",
-      " bench/examples/dask-nvtabular-criteo-benchmark.py  |   4 +-\n",
-      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
-      " conda/environments/nvtabular_aws_sagemaker.yml     |   2 +-\n",
-      " conda/recipes/meta.yaml                            |   2 +-\n",
-      " cpp/nvtabular/inference/categorify.cc              |  10 +\n",
-      " docs/README.md                                     |  29 ++-\n",
-      " docs/source/core_features.md                       |  48 ++---\n",
-      " docs/source/resources/architecture.md              |  17 +-\n",
-      " docs/source/resources/cloud_integration.md         |  24 ++-\n",
-      " docs/source/resources/links.md                     |  40 ++--\n",
-      " docs/source/toc.yaml                               |  12 +-\n",
-      " examples/01-Getting-started.ipynb                  |   5 +-\n",
-      " examples/02-Advanced-NVTabular-workflow.ipynb      |   5 +-\n",
-      " .../03-Running-on-multiple-GPUs-or-on-CPU.ipynb    |  24 ++-\n",
-      " examples/README.md                                 |   1 +\n",
-      " .../tensorflow/tfrecords_to_parquet.py             |   9 +-\n",
-      " nvtabular/inference/__init__.py                    |   4 +-\n",
-      " nvtabular/inference/triton/data_conversions.py     |  24 +--\n",
-      " nvtabular/inference/triton/ensemble.py             |  86 ++------\n",
-      " nvtabular/inference/triton/model/model_pt.py       |   1 -\n",
-      " nvtabular/inference/workflow/hugectr.py            |   2 +-\n",
-      " nvtabular/loader/backend.py                        |  31 +--\n",
-      " nvtabular/loader/tensorflow.py                     |   1 +\n",
-      " nvtabular/ops/categorify.py                        |   4 +-\n",
-      " nvtabular/ops/column_similarity.py                 |  42 ++--\n",
-      " nvtabular/ops/groupby.py                           |  35 ++--\n",
-      " nvtabular/ops/join_external.py                     |   7 +-\n",
-      " nvtabular/ops/join_groupby.py                      |  18 +-\n",
-      " nvtabular/ops/list_slice.py                        |  22 +-\n",
-      " nvtabular/ops/moments.py                           |   2 -\n",
-      " nvtabular/ops/reduce_dtype_size.py                 |   9 +-\n",
-      " nvtabular/ops/target_encoding.py                   |   2 +-\n",
-      " nvtabular/ops/value_counts.py                      |  14 +-\n",
-      " nvtabular/tools/data_gen.py                        |  31 ++-\n",
-      " nvtabular/utils.py                                 |   2 +-\n",
-      " nvtabular/workflow/workflow.py                     | 169 +++++++++++++--\n",
-      " requirements-test.txt                              |   2 -\n",
-      " requirements/base.txt                              |   4 +-\n",
-      " requirements/test.txt                              |  15 +-\n",
-      " setup.py                                           |   5 +\n",
-      " tests/conftest.py                                  |  33 ++-\n",
-      " .../test_02-Advanced-NVTabular-workflow.py         |  17 +-\n",
-      " .../test_03-Running-on-multiple-GPUs-or-on-CPU.py  |  11 +-\n",
-      " tests/unit/loader/test_tf_dataloader.py            | 206 +++---------------\n",
-      " tests/unit/loader/test_torch_dataloader.py         |  79 ++-----\n",
-      " tests/unit/ops/test_categorify.py                  |  36 +++-\n",
-      " tests/unit/ops/test_column_similarity.py           |   3 +-\n",
-      " tests/unit/ops/test_drop_low_cardinality.py        |   7 +-\n",
-      " tests/unit/ops/test_groupyby.py                    |   9 +-\n",
-      " tests/unit/ops/test_join.py                        |  11 +-\n",
-      " tests/unit/ops/test_lambda.py                      |  28 ++-\n",
-      " tests/unit/ops/test_ops.py                         |  12 +-\n",
-      " tests/unit/ops/test_ops_schema.py                  |  25 ++-\n",
-      " tests/unit/ops/test_reduce_dtype_size.py           |   7 +-\n",
-      " tests/unit/ops/test_target_encode.py               |  11 +-\n",
-      " tests/unit/ops/test_value_count.py                 |   2 +\n",
-      " tests/unit/test_dask_nvt.py                        |   5 +-\n",
-      " tests/unit/test_s3.py                              |   8 +-\n",
-      " tests/unit/test_tf4rec.py                          |  11 +-\n",
-      " tests/unit/test_triton_inference.py                |   3 +-\n",
-      " tests/unit/workflow/test_cpu_workflow.py           |   6 +-\n",
-      " tests/unit/workflow/test_workflow.py               |  92 ++++++++-\n",
-      " tox.ini                                            |  10 +-\n",
-      " 93 files changed, 1448 insertions(+), 1196 deletions(-)\n",
-      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
-      " delete mode 100644 .github/workflows/cpu-ci.yml\n",
-      " create mode 100644 .github/workflows/cpu-packages.yml\n",
-      " create mode 100644 .github/workflows/cpu-tests.yml\n",
-      " delete mode 100644 .github/workflows/gpu-ci.yml\n",
-      " create mode 100644 .github/workflows/gpu-tests.yml\n",
-      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
-      " create mode 100644 .prettierignore\n",
-      " delete mode 100644 requirements-test.txt\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
       "Processing /nvtabular\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
@@ -884,513 +254,650 @@
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (1.9.3)\n",
-      "Processing /root/.cache/pip/wheels/42/ef/87/2c64bce8c3064a2c4e399933df4eda4838939355698ff8f7c7/merlin_core-23.4.0-py3-none-any.whl\n",
-      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
-      "Requirement already satisfied: numpy<1.26.0,>=1.18.5 in /usr/local/lib/python3.8/dist-packages (from scipy->nvtabular==1.6.0+66.g67136eba) (1.22.4)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.56.4)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (11.4.1)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.12.0)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.5)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.4.1)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.19.6)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.64.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (22.0)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (23.4.0)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2023.5.0)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.0.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.5)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.39.1)\n",
-      "Requirement already satisfied: importlib-metadata; python_version < \"3.9\" in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.2.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.57.0)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.8.2)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.0)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.4.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (8.1.3)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.4)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.7.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.12.0)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.26.13)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (5.9.4)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.2.0)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.1)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.1.2)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.3.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (0.4.3)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata; python_version < \"3.9\"->numba>=0.54->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (3.11.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.14.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (2.1.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.4)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.4.0->nvtabular==1.6.0+66.g67136eba) (6.0.1)\n",
       "Building wheels for collected packages: nvtabular\n",
       "  Building wheel for nvtabular (PEP 517): started\n",
       "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
-      "  Created wheel for nvtabular: filename=nvtabular-1.6.0+66.g67136eba-cp38-cp38-linux_x86_64.whl size=259850 sha256=b7b2ec970d1e905ffca54a11728068e88a5ef40dfcd582124e0d0d1c8ca7d590\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-kfeyyfk1/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "  Created wheel for nvtabular: filename=nvtabular-23.5.dev0+7.g67136eba-cp38-cp38-linux_x86_64.whl size=259872 sha256=a449abf03f9b7d8ea9a0810fb4e25776beaf1a96332e07547ec89c033cd34f7b\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-7f9__rd9/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
       "Successfully built nvtabular\n",
-      "Installing collected packages: merlin-core, nvtabular\n",
-      "  Attempting uninstall: merlin-core\n",
-      "    Found existing installation: merlin-core 0.9.0+125.ga0bcd30f\n",
-      "    Uninstalling merlin-core-0.9.0+125.ga0bcd30f:\n",
-      "      Successfully uninstalled merlin-core-0.9.0+125.ga0bcd30f\n",
+      "Installing collected packages: nvtabular\n",
       "  Attempting uninstall: nvtabular\n",
-      "    Found existing installation: nvtabular 1.8.0\n",
-      "    Uninstalling nvtabular-1.8.0:\n",
-      "      Successfully uninstalled nvtabular-1.8.0\n",
-      "Successfully installed merlin-core-23.4.0 nvtabular-1.6.0+66.g67136eba\n"
+      "    Found existing installation: nvtabular 23.2.0\n",
+      "    Uninstalling nvtabular-23.2.0:\n",
+      "      Successfully uninstalled nvtabular-23.2.0\n",
+      "Successfully installed nvtabular-23.5.dev0+7.g67136eba\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Previous HEAD position was feaf748 adding async tf strategy for gpu memory (#264)\n",
-      "Switched to branch 'main'\n"
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      " * [new branch]      Mai                     -> origin/Mai\n",
+      " * [new branch]      add_category_encoding_test -> origin/add_category_encoding_test\n",
+      " * [new branch]      add_lightfm_and_explicit_training_example -> origin/add_lightfm_and_explicit_training_example\n",
+      " * [new branch]      add_logo_tracking_to_07 -> origin/add_logo_tracking_to_07\n",
+      " * [new branch]      add_notebooks_test      -> origin/add_notebooks_test\n",
+      " * [new branch]      advanced_example        -> origin/advanced_example\n",
+      " * [new branch]      asvdb_metric_tracking   -> origin/asvdb_metric_tracking\n",
+      " * [new branch]      batched-dataset/schema  -> origin/batched-dataset/schema\n",
+      " * [new branch]      benchmark-session-based -> origin/benchmark-session-based\n",
+      " * [new branch]      block-context           -> origin/block-context\n",
+      " * [new branch]      blossom_report_skipped  -> origin/blossom_report_skipped\n",
+      " * [new branch]      break_ties              -> origin/break_ties\n",
+      " * [new branch]      bs_unittest_examples_v2 -> origin/bs_unittest_examples_v2\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      change_two_tower_api_test -> origin/change_two_tower_api_test\n",
+      " * [new branch]      ci/backend-tests        -> origin/ci/backend-tests\n",
+      " * [new branch]      ci/example-linting      -> origin/ci/example-linting\n",
+      " * [new branch]      ci/horovod              -> origin/ci/horovod\n",
+      " * [new branch]      cicd                    -> origin/cicd\n",
+      " * [new branch]      codespell_fix           -> origin/codespell_fix\n",
+      " * [new branch]      compare_ranking_models  -> origin/compare_ranking_models\n",
+      " * [new branch]      conda_recipe            -> origin/conda_recipe\n",
+      " * [new branch]      consolidate-abstractions -> origin/consolidate-abstractions\n",
+      " * [new branch]      dataloader_tag_fix      -> origin/dataloader_tag_fix\n",
+      " * [new branch]      dcn_tests               -> origin/dcn_tests\n",
+      " * [new branch]      deps/merlin-core-commit -> origin/deps/merlin-core-commit\n",
+      " * [new branch]      docs-strings            -> origin/docs-strings\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      emb_export_fix          -> origin/emb_export_fix\n",
+      " * [new branch]      evaluate_fixes          -> origin/evaluate_fixes\n",
+      " * [new branch]      examples/unit-tests     -> origin/examples/unit-tests\n",
+      " * [new branch]      examples/update_link    -> origin/examples/update_link\n",
+      " * [new branch]      examples_fixes          -> origin/examples_fixes\n",
+      " * [new branch]      fea-sok-integration-wj  -> origin/fea-sok-integration-wj\n",
+      " * [new branch]      fea-sok-load-dump       -> origin/fea-sok-load-dump\n",
+      " * [new branch]      feature/multi-hot-columns -> origin/feature/multi-hot-columns\n",
+      " * [new branch]      feature/retrieval-dnn   -> origin/feature/retrieval-dnn\n",
+      " * [new branch]      fix-contrastive-predictions -> origin/fix-contrastive-predictions\n",
+      " * [new branch]      fix/aliccp_workflow     -> origin/fix/aliccp_workflow\n",
+      " * [new branch]      fix/batch_predict       -> origin/fix/batch_predict\n",
+      " * [new branch]      fix/example-tests       -> origin/fix/example-tests\n",
+      " * [new branch]      fix/python-version      -> origin/fix/python-version\n",
+      " * [new branch]      fix/shared_embeddings   -> origin/fix/shared_embeddings\n",
+      " * [new branch]      fix_aliccp_schema       -> origin/fix_aliccp_schema\n",
+      " * [new branch]      fix_cated_ohe           -> origin/fix_cated_ohe\n",
+      " * [new branch]      fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
+      " * [new branch]      fix_lightfm_evaluate    -> origin/fix_lightfm_evaluate\n",
+      " * [new branch]      fix_masking             -> origin/fix_masking\n",
+      " * [new branch]      fix_mtl_metrics         -> origin/fix_mtl_metrics\n",
+      " * [new branch]      fix_notebooks           -> origin/fix_notebooks\n",
+      " * [new branch]      fix_regression          -> origin/fix_regression\n",
+      " * [new branch]      fix_retrieval           -> origin/fix_retrieval\n",
+      " * [new branch]      fix_retrieval_eval_loss -> origin/fix_retrieval_eval_loss\n",
+      " * [new branch]      fix_sampled_softmax_evaluation -> origin/fix_sampled_softmax_evaluation\n",
+      " * [new branch]      fix_test_07             -> origin/fix_test_07\n",
+      " * [new branch]      getting_started_exp     -> origin/getting_started_exp\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      hashed_cross_test       -> origin/hashed_cross_test\n",
+      " * [new branch]      implement_review_comments -> origin/implement_review_comments\n",
+      " * [new branch]      in-bath-sampling-bug    -> origin/in-bath-sampling-bug\n",
+      " * [new branch]      infer_embeddings        -> origin/infer_embeddings\n",
+      " * [new branch]      inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      " * [new branch]      laiacano/concurrency    -> origin/laiacano/concurrency\n",
+      " * [new branch]      laiacano/tox            -> origin/laiacano/tox\n",
+      " * [new branch]      layer_freezing_test     -> origin/layer_freezing_test\n",
+      " * [new branch]      load_retrieval_model    -> origin/load_retrieval_model\n",
+      " * [new branch]      logit_correction_nol2_temp -> origin/logit_correction_nol2_temp\n",
+      " * [new branch]      losses                  -> origin/losses\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_transforms      -> origin/masking_transforms\n",
+      " * [new branch]      merlin-standard-lib     -> origin/merlin-standard-lib\n",
+      " * [new branch]      metrics_opt             -> origin/metrics_opt\n",
+      " * [new branch]      metrics_opt2            -> origin/metrics_opt2\n",
+      " * [new branch]      mikemckiernan-patch-1   -> origin/mikemckiernan-patch-1\n",
+      " * [new branch]      mlm                     -> origin/mlm\n",
+      " * [new branch]      mlm_alt                 -> origin/mlm_alt\n",
+      " * [new branch]      mlp_selu                -> origin/mlp_selu\n",
+      " * [new branch]      mrr_fix                 -> origin/mrr_fix\n",
+      " * [new branch]      mtl_example             -> origin/mtl_example\n",
+      " * [new branch]      mtl_loss                -> origin/mtl_loss\n",
+      " * [new branch]      mtl_models              -> origin/mtl_models\n",
+      " * [new branch]      mtl_regularization      -> origin/mtl_regularization\n",
+      " * [new branch]      multi_optimizer_example -> origin/multi_optimizer_example\n",
+      " * [new branch]      neg_sampling            -> origin/neg_sampling\n",
+      " * [new branch]      poc                     -> origin/poc\n",
+      " * [new branch]      pretrained_init         -> origin/pretrained_init\n",
+      " * [new branch]      radekosmulski-patch-2   -> origin/radekosmulski-patch-2\n",
+      " * [new branch]      ragged_embeddings       -> origin/ragged_embeddings\n",
+      " * [new branch]      ranking_models_inputs   -> origin/ranking_models_inputs\n",
+      " * [new branch]      ranking_tests           -> origin/ranking_tests\n",
+      " * [new branch]      ranking_tests3          -> origin/ranking_tests3\n",
+      " * [new branch]      readme_bash             -> origin/readme_bash\n",
+      " * [new branch]      refactor-docs-reqs      -> origin/refactor-docs-reqs\n",
+      " * [new branch]      refactor/docs-reqs      -> origin/refactor/docs-reqs\n",
+      " * [new branch]      refactor/embedding-layers -> origin/refactor/embedding-layers\n",
+      " * [new branch]      refactor/youtube-retrieval -> origin/refactor/youtube-retrieval\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      remove/masking          -> origin/remove/masking\n",
+      " * [new branch]      reset-metrics           -> origin/reset-metrics\n",
+      " * [new branch]      retrieval-sample-weights -> origin/retrieval-sample-weights\n",
+      " * [new branch]      retrieval_debug         -> origin/retrieval_debug\n",
+      " * [new branch]      retrieval_debug_no_l2norm -> origin/retrieval_debug_no_l2norm\n",
+      " * [new branch]      retrieval_debug_scores_temp -> origin/retrieval_debug_scores_temp\n",
+      " * [new branch]      retrieval_eval_fix      -> origin/retrieval_eval_fix\n",
+      " * [new branch]      retrieval_fixes         -> origin/retrieval_fixes\n",
+      " * [new branch]      retrieval_fixes_2       -> origin/retrieval_fixes_2\n"
      ]
     },
     {
-     "name": "stdout",
+     "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Your branch is up to date with 'origin/main'.\n"
+      " * [new branch]      retrieval_integration_tests -> origin/retrieval_integration_tests\n",
+      " * [new branch]      revert-813-laiacano/tox-and-tmpdir -> origin/revert-813-laiacano/tox-and-tmpdir\n",
+      " * [new branch]      romeyn/block-api        -> origin/romeyn/block-api\n",
+      " * [new branch]      romeyn/block-cleanup    -> origin/romeyn/block-cleanup\n",
+      " * [new branch]      romeyn/inputs           -> origin/romeyn/inputs\n",
+      " * [new branch]      sampling                -> origin/sampling\n",
+      " * [new branch]      select-by-tag           -> origin/select-by-tag\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      t4rec_use_case          -> origin/t4rec_use_case\n",
+      " * [new branch]      tf/add-bokeh-to-dev     -> origin/tf/add-bokeh-to-dev\n",
+      " * [new branch]      tf/base-model-test-graph-mode -> origin/tf/base-model-test-graph-mode\n",
+      " * [new branch]      tf/batch_predict_fix    -> origin/tf/batch_predict_fix\n",
+      " * [new branch]      tf/categorical-prediction -> origin/tf/categorical-prediction\n",
+      " * [new branch]      tf/categorical-prediction-2 -> origin/tf/categorical-prediction-2\n",
+      " * [new branch]      tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]      tf/combinators-base     -> origin/tf/combinators-base\n",
+      " * [new branch]      tf/cond                 -> origin/tf/cond\n",
+      " * [new branch]      tf/context-tensor       -> origin/tf/context-tensor\n",
+      " * [new branch]      tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]      tf/contrastive-prediction -> origin/tf/contrastive-prediction\n",
+      " * [new branch]      tf/core                 -> origin/tf/core\n",
+      " * [new branch]      tf/dataloader_changes   -> origin/tf/dataloader_changes\n",
+      " * [new branch]      tf/dep-prediction-tasks -> origin/tf/dep-prediction-tasks\n",
+      " * [new branch]      tf/dlrm_dropout_fix     -> origin/tf/dlrm_dropout_fix\n",
+      " * [new branch]      tf/dynamic-memory-growth -> origin/tf/dynamic-memory-growth\n",
+      " * [new branch]      tf/embedding-tables     -> origin/tf/embedding-tables\n",
+      " * [new branch]      tf/embeddings_regularization -> origin/tf/embeddings_regularization\n",
+      " * [new branch]      tf/evaluate_retrieval   -> origin/tf/evaluate_retrieval\n",
+      " * [new branch]      tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]      tf/fix_logq_correction  -> origin/tf/fix_logq_correction\n",
+      " * [new branch]      tf/fix_mlm_test         -> origin/tf/fix_mlm_test\n",
+      " * [new branch]      tf/fix_tag_item_id      -> origin/tf/fix_tag_item_id\n",
+      " * [new branch]      tf/fix_tests_shared_state -> origin/tf/fix_tests_shared_state\n",
+      " * [new branch]      tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]      tf/input-block          -> origin/tf/input-block\n",
+      " * [new branch]      tf/input-block-filter   -> origin/tf/input-block-filter\n",
+      " * [new branch]      tf/inputs-concat        -> origin/tf/inputs-concat\n",
+      " * [new branch]      tf/keras-embedding      -> origin/tf/keras-embedding\n",
+      " * [new branch]      tf/logit_correction     -> origin/tf/logit_correction\n",
+      " * [new branch]      tf/loglossmetric_callbacks -> origin/tf/loglossmetric_callbacks\n",
+      " * [new branch]      tf/logq_correction      -> origin/tf/logq_correction\n",
+      " * [new branch]      tf/loss_batch_metric    -> origin/tf/loss_batch_metric\n",
+      " * [new branch]      tf/map-values           -> origin/tf/map-values\n",
+      " * [new branch]      tf/masking_block        -> origin/tf/masking_block\n",
+      " * [new branch]      tf/mf-retrieval-model   -> origin/tf/mf-retrieval-model\n",
+      " * [new branch]      tf/mlm-schema           -> origin/tf/mlm-schema\n",
+      " * [new branch]      tf/model-tests          -> origin/tf/model-tests\n",
+      " * [new branch]      tf/model/sequential     -> origin/tf/model/sequential\n",
+      " * [new branch]      tf/move-core            -> origin/tf/move-core\n",
+      " * [new branch]      tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " * [new branch]      tf/multi_task_improv    -> origin/tf/multi_task_improv\n",
+      " * [new branch]      tf/ncf_model            -> origin/tf/ncf_model\n",
+      " * [new branch]      tf/output-block         -> origin/tf/output-block\n",
+      " * [new branch]      tf/pop_metrics          -> origin/tf/pop_metrics\n",
+      " * [new branch]      tf/prediction           -> origin/tf/prediction\n",
+      " * [new branch]      tf/prediction-block     -> origin/tf/prediction-block\n",
+      " * [new branch]      tf/pretrained_emb       -> origin/tf/pretrained_emb\n",
+      " * [new branch]      tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]      tf/pruning-parallel-block -> origin/tf/pruning-parallel-block\n",
+      " * [new branch]      tf/quick_start_ranking  -> origin/tf/quick_start_ranking\n",
+      " * [new branch]      tf/ragged-tensors       -> origin/tf/ragged-tensors\n",
+      " * [new branch]      tf/ranking_metrics_sort -> origin/tf/ranking_metrics_sort\n",
+      " * [new branch]      tf/refactor             -> origin/tf/refactor\n",
+      " * [new branch]      tf/retireval_eval       -> origin/tf/retireval_eval\n",
+      " * [new branch]      tf/retrieval-eval       -> origin/tf/retrieval-eval\n",
+      " * [new branch]      tf/retrieval-model-v2   -> origin/tf/retrieval-model-v2\n",
+      " * [new branch]      tf/retrieval-models     -> origin/tf/retrieval-models\n",
+      " * [new branch]      tf/sampling/items       -> origin/tf/sampling/items\n",
+      " * [new branch]      tf/save-regularizer     -> origin/tf/save-regularizer\n",
+      " * [new branch]      tf/target-propagation   -> origin/tf/target-propagation\n",
+      " * [new branch]      tf/targets              -> origin/tf/targets\n",
+      " * [new branch]      tf/tf-cont-list         -> origin/tf/tf-cont-list\n",
+      " * [new branch]      tf/topk_recommender     -> origin/tf/topk_recommender\n",
+      " * [new branch]      tf/tower-save           -> origin/tf/tower-save\n",
+      " * [new branch]      tf/train_metrics_steps_fix -> origin/tf/train_metrics_steps_fix\n",
+      " * [new branch]      tf/transformer-api      -> origin/tf/transformer-api\n",
+      " * [new branch]      tf/transformer-block    -> origin/tf/transformer-block\n",
+      " * [new branch]      tf/transformer_block    -> origin/tf/transformer_block\n",
+      " * [new branch]      tf/wide_and_deep        -> origin/tf/wide_and_deep\n",
+      " * [new branch]      tf/wrap-as-model        -> origin/tf/wrap-as-model\n",
+      " * [new branch]      tf/xlnet-bug            -> origin/tf/xlnet-bug\n",
+      " * [new branch]      torch/clean-up          -> origin/torch/clean-up\n",
+      " * [new branch]      torch/dev               -> origin/torch/dev\n",
+      " * [new branch]      torch/masking           -> origin/torch/masking\n",
+      " * [new branch]      torch/prototype         -> origin/torch/prototype\n",
+      " * [new branch]      torch/remove-t4r-code   -> origin/torch/remove-t4r-code\n",
+      " * [new branch]      tox_github_actions_fix  -> origin/tox_github_actions_fix\n",
+      " * [new branch]      transformer-api         -> origin/transformer-api\n",
+      " * [new branch]      two_tower_fixes         -> origin/two_tower_fixes\n",
+      " * [new branch]      update_07               -> origin/update_07\n",
+      " * [new branch]      update_advanced_notebook -> origin/update_advanced_notebook\n",
+      " * [new branch]      update_example_01       -> origin/update_example_01\n",
+      " * [new branch]      update_examples_with_tracking_logo -> origin/update_examples_with_tracking_logo\n",
+      " * [new branch]      v0.2.0-docs             -> origin/v0.2.0-docs\n",
+      " * [new branch]      v0.3.0-docs             -> origin/v0.3.0-docs\n",
+      " * [new branch]      validation_data_fix     -> origin/validation_data_fix\n",
+      " * [new branch]      validation_data_fix2    -> origin/validation_data_fix2\n",
+      " * [new branch]      wide_deep_example_test  -> origin/wide_deep_example_test\n",
+      " * [new branch]      wideanddeep_example     -> origin/wideanddeep_example\n",
+      " * [new branch]      xgboost/predict-without-target -> origin/xgboost/predict-without-target\n",
+      " * [new branch]      youtube_dnn_retrieval   -> origin/youtube_dnn_retrieval\n",
+      " * [new branch]      youtubednn_improv       -> origin/youtubednn_improv\n",
+      " * [new branch]      youtubednn_logq         -> origin/youtubednn_logq\n",
+      " * [new tag]         v0.10.0                 -> v0.10.0\n",
+      " * [new tag]         v0.11.0                 -> v0.11.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.04.00               -> v23.04.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "From https://github.com/NVIDIA-Merlin/systems\n",
-      " * branch            main       -> FETCH_HEAD\n",
-      "   20bb231..2b1b90b  main       -> origin/main\n"
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Previous HEAD position was ee03bb1c Increase tolerance in retrieval transformer test and random seed (#1007)\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating 20bb231..2b1b90b\n",
-      "Fast-forward\n",
-      " .github/ISSUE_TEMPLATE/bug-report.md               |  17 +-\n",
-      " .github/ISSUE_TEMPLATE/documentation-request.md    |  12 +-\n",
-      " .github/ISSUE_TEMPLATE/feature-request.md          |   5 +-\n",
-      " .github/ISSUE_TEMPLATE/submit-question.md          |   3 +-\n",
-      " .github/ISSUE_TEMPLATE/task.md                     |   5 +-\n",
-      " .github/release-drafter.yml                        |  44 +-\n",
-      " .github/workflows/check-base-branch.yaml           |   9 +\n",
-      " .github/workflows/cpu-ci.yml                       | 128 ++--\n",
-      " .github/workflows/docs-preview-pr.yaml             |   6 +-\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |  40 +-\n",
-      " .github/workflows/lint.yaml                        |  18 +-\n",
-      " .github/workflows/packages.yaml                    | 118 ++++\n",
-      " .github/workflows/postmerge-cpu.yml                |  60 ++\n",
-      " .github/workflows/postmerge-gpu.yml                |  27 +\n",
-      " .github/workflows/release-drafter.yml              |   4 +-\n",
-      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
-      " .pre-commit-config.yaml                            |  71 +-\n",
-      " .prettierignore                                    |   2 +\n",
-      " CLA.md                                             |   9 +-\n",
-      " CONTRIBUTING.md                                    |   2 +-\n",
-      " README.md                                          |   2 +-\n",
-      " ci/pr.gpu.Jenkinsfile                              |   2 +-\n",
-      " conda/recipes/meta.yaml                            |  18 +-\n",
-      " docs/README.md                                     |  53 +-\n",
-      " ...ing-An-Implicit-Model-With-Merlin-Systems.ipynb |   5 +-\n",
-      " ...ving-An-XGboost-Model-With-Merlin-Systems.ipynb |   5 +-\n",
-      " ...erving-Ranking-Models-With-Merlin-Systems.ipynb |   5 +-\n",
-      " merlin/systems/dag/__init__.py                     |   2 -\n",
-      " merlin/systems/dag/dictarray.py                    | 345 ----------\n",
-      " merlin/systems/dag/ensemble.py                     |   2 +-\n",
-      " merlin/systems/dag/node.py                         |  29 +-\n",
-      " merlin/systems/dag/op_runner.py                    |  68 --\n",
-      " merlin/systems/dag/ops/__init__.py                 |  22 +-\n",
-      " merlin/systems/dag/ops/faiss.py                    | 116 +---\n",
-      " merlin/systems/dag/ops/feast.py                    | 110 +---\n",
-      " merlin/systems/dag/ops/fil.py                      |  74 +--\n",
-      " merlin/systems/dag/ops/implicit.py                 |  84 +--\n",
-      " merlin/systems/dag/ops/operator.py                 | 216 +-----\n",
-      " merlin/systems/dag/ops/pytorch.py                  |  23 +-\n",
-      " merlin/systems/dag/ops/session_filter.py           |  72 +-\n",
-      " merlin/systems/dag/ops/softmax_sampling.py         |  61 +-\n",
-      " merlin/systems/dag/ops/tensorflow.py               | 143 ++--\n",
-      " merlin/systems/dag/ops/unroll_features.py          |  36 +-\n",
-      " merlin/systems/dag/ops/workflow.py                 |  29 +-\n",
-      " merlin/systems/dag/runtimes/triton/ops/fil.py      |  51 +-\n",
-      " merlin/systems/dag/runtimes/triton/ops/operator.py |  84 ++-\n",
-      " merlin/systems/dag/runtimes/triton/ops/pytorch.py  |  27 +-\n",
-      " .../systems/dag/runtimes/triton/ops/tensorflow.py  |  41 +-\n",
-      " merlin/systems/dag/runtimes/triton/ops/workflow.py | 132 +++-\n",
-      " merlin/systems/dag/runtimes/triton/runtime.py      |  36 +-\n",
-      " merlin/systems/triton/__init__.py                  | 118 ++--\n",
-      " merlin/systems/triton/conversions.py               | 198 ++++--\n",
-      " merlin/systems/triton/export.py                    | 731 +--------------------\n",
-      " merlin/systems/triton/models/executor_model.py     |  46 +-\n",
-      " merlin/systems/triton/models/oprunner_model.py     | 129 ----\n",
-      " merlin/systems/triton/models/pytorch_model.py      | 139 ++--\n",
-      " merlin/systems/triton/models/workflow_model.py     |  56 +-\n",
-      " merlin/systems/triton/utils.py                     |  58 +-\n",
-      " merlin/systems/workflow/base.py                    |  30 +-\n",
-      " merlin/systems/workflow/hugectr.py                 |  87 ---\n",
-      " merlin/systems/workflow/pytorch.py                 |  46 --\n",
-      " merlin/systems/workflow/tensorflow.py              |  68 --\n",
-      " pytest.ini                                         |   7 +-\n",
-      " requirements/test.txt                              |   2 +-\n",
-      " tests/conftest.py                                  |  36 +-\n",
-      " ...erving_an_implicit_model_with_merlin_systems.py |  12 +-\n",
-      " ...serving_an_xgboost_model_with_merlin_systems.py |   4 +-\n",
-      " tests/integration/tf/test_transformer_model.py     | 103 +++\n",
-      " .../systems/dag/test_column.py => test_passing.py} |  15 +-\n",
-      " tests/unit/systems/dag/ops/test_ops.py             | 101 ++-\n",
-      " .../dag/runtimes/local/ops/fil/test_lightgbm.py    |  15 +-\n",
-      " .../dag/runtimes/local/ops/fil/test_sklearn.py     |  15 +-\n",
-      " .../dag/runtimes/local/ops/fil/test_xgboost.py     |  18 +-\n",
-      " .../runtimes/local/ops/nvtabular/test_ensemble.py  |  10 +-\n",
-      " .../runtimes/local/ops/tensorflow/test_ensemble.py |  35 +-\n",
-      " .../dag/runtimes/local/ops/torch/test_op.py        |   6 +-\n",
-      " .../triton/ops/fil/test_lightgbm_triton.py         |  11 +-\n",
-      " .../runtimes/triton/ops/fil/test_sklearn_triton.py |   4 +-\n",
-      " .../runtimes/triton/ops/fil/test_xgboost_triton.py |   7 +-\n",
-      " .../dag/runtimes/triton/ops/torch/test_op.py       |   4 +-\n",
-      " .../runtimes/triton/ops/workflow/test_ensemble.py  | 305 ++++++++-\n",
-      " .../systems/dag/runtimes/triton/test_triton.py     |  21 +-\n",
-      " tests/unit/systems/dag/test_dict_array.py          |  76 ---\n",
-      " tests/unit/systems/dag/test_ensemble.py            |   4 +-\n",
-      " tests/unit/systems/dag/test_executors.py           |  12 +-\n",
-      " tests/unit/systems/dag/test_op_runner.py           | 210 ------\n",
-      " tests/unit/systems/ops/embedding_op.py             |  56 ++\n",
-      " tests/unit/systems/ops/faiss/test_executor.py      |  25 +-\n",
-      " tests/unit/systems/ops/feast/test_op.py            |  76 +--\n",
-      " tests/unit/systems/ops/fil/test_ensemble.py        |  21 +-\n",
-      " tests/unit/systems/ops/fil/test_forest.py          |  47 +-\n",
-      " tests/unit/systems/ops/fil/test_op.py              | 106 ++-\n",
-      " tests/unit/systems/ops/implicit/test_executor.py   |   4 +-\n",
-      " tests/unit/systems/ops/implicit/test_op.py         |  51 +-\n",
-      " tests/unit/systems/ops/padding_op.py               |  62 ++\n",
-      " tests/unit/systems/ops/tf/test_ensemble.py         |  15 +-\n",
-      " tests/unit/systems/ops/tf/test_op.py               |   6 +-\n",
-      " tests/unit/systems/ops/torch/test_ensemble.py      |  97 +++\n",
-      " tests/unit/systems/utils/ops.py                    |  13 +-\n",
-      " tests/unit/systems/utils/tf.py                     |  65 +-\n",
-      " tests/unit/test_export.py                          |  77 ---\n",
-      " tox.ini                                            |  42 +-\n",
-      " 103 files changed, 2427 insertions(+), 3565 deletions(-)\n",
-      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
-      " create mode 100644 .github/workflows/packages.yaml\n",
-      " create mode 100644 .github/workflows/postmerge-cpu.yml\n",
-      " create mode 100644 .github/workflows/postmerge-gpu.yml\n",
-      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
-      " create mode 100644 .prettierignore\n",
-      " delete mode 100644 merlin/systems/dag/dictarray.py\n",
-      " delete mode 100644 merlin/systems/dag/op_runner.py\n",
-      " delete mode 100644 merlin/systems/triton/models/oprunner_model.py\n",
-      " delete mode 100644 merlin/systems/workflow/hugectr.py\n",
-      " delete mode 100644 merlin/systems/workflow/pytorch.py\n",
-      " delete mode 100644 merlin/systems/workflow/tensorflow.py\n",
-      " create mode 100644 tests/integration/tf/test_transformer_model.py\n",
-      " rename tests/{unit/systems/dag/test_column.py => test_passing.py} (66%)\n",
-      " delete mode 100644 tests/unit/systems/dag/test_dict_array.py\n",
-      " delete mode 100644 tests/unit/systems/dag/test_op_runner.py\n",
-      " create mode 100644 tests/unit/systems/ops/embedding_op.py\n",
-      " create mode 100644 tests/unit/systems/ops/padding_op.py\n",
-      " create mode 100644 tests/unit/systems/ops/torch/test_ensemble.py\n",
-      " delete mode 100644 tests/unit/test_export.py\n",
-      "Processing /systems\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /models\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
       "  Getting requirements to build wheel: started\n",
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=0.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
-      "Requirement already satisfied: treelite==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n"
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.5.dev0+12.gd8133b8f-py3-none-any.whl size=343289 sha256=ae06460f4a2d29eb360acf9a1f0c15d732fc12d4d825c87c293f82719ceda62c\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zb4niy12/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 23.2.0\n",
+      "    Uninstalling merlin-models-23.2.0:\n",
+      "      Successfully uninstalled merlin-models-23.2.0\n",
+      "Successfully installed merlin-models-23.5.dev0+12.gd8133b8f\n"
      ]
     },
     {
-     "name": "stdout",
+     "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: nvtabular>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (1.6.0+66.g67136eba)\n",
-      "Requirement already satisfied: treelite-runtime==2.4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
-      "Requirement already satisfied: requests<3,>=2.10 in /usr/local/lib/python3.8/dist-packages (from merlin-systems==0.7.0+98.g2b1b90b) (2.28.1)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (22.0)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (11.4.1)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.0.0)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.64.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.56.4)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.22.4)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.4.1)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.12.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.5)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.5)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.19.6)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2023.5.0)\n",
-      "Requirement already satisfied: scipy in /usr/local/lib/python3.8/dist-packages (from treelite==2.4.0->merlin-systems==0.7.0+98.g2b1b90b) (1.9.3)\n",
-      "Requirement already satisfied: merlin-dataloader>=23.4.0 in /usr/local/lib/python3.8/dist-packages (from nvtabular>=1.0.0->merlin-systems==0.7.0+98.g2b1b90b) (23.4.0)\n",
-      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.8)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (1.26.13)\n",
-      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2019.11.28)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests<3,>=2.10->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (8.1.3)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.12.0)\n",
-      "Requirement already satisfied: importlib-metadata>=4.13.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.39.1)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (45.2.0)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.4)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.4.0)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (5.9.4)\n",
-      "Requirement already satisfied: zict>=2.2.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.2.0)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.7.0)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.1)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.1.2)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.0)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.3.0)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (0.4.3)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2022.7)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.8.2)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata>=4.13.0->dask>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (3.11.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=2.2.0->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (2.1.1)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.4)\n"
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      " * [new branch]      add_xgboost_serving_example -> origin/add_xgboost_serving_example\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      bschifferer-patch-2     -> origin/bschifferer-patch-2\n",
+      " * [new branch]      ci/cpu-action           -> origin/ci/cpu-action\n",
+      " * [new branch]      dataset-cpu-default-None -> origin/dataset-cpu-default-None\n",
+      " * [new branch]      docs-nightly-build      -> origin/docs-nightly-build\n",
+      " * [new branch]      docs-remove-deps        -> origin/docs-remove-deps\n",
+      " * [new branch]      docs-tox                -> origin/docs-tox\n",
+      " * [new branch]      docs/contributing       -> origin/docs/contributing\n",
+      " * [new branch]      docs/coverage-threshold -> origin/docs/coverage-threshold\n",
+      " * [new branch]      docs/docstring-coverage -> origin/docs/docstring-coverage\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      docs/issue-templates    -> origin/docs/issue-templates\n",
+      " * [new branch]      docs/readme             -> origin/docs/readme\n",
+      " * [new branch]      feast-errors            -> origin/feast-errors\n",
+      " * [new branch]      feature/pytorch         -> origin/feature/pytorch\n",
+      " * [new branch]      feature/t4r-serving     -> origin/feature/t4r-serving\n",
+      " * [new branch]      feature/torchscript     -> origin/feature/torchscript\n",
+      " * [new branch]      fix/dask-dist-deps      -> origin/fix/dask-dist-deps\n",
+      " * [new branch]      fix/faiss-types         -> origin/fix/faiss-types\n",
+      " * [new branch]      fix/multi-hot-dtypes    -> origin/fix/multi-hot-dtypes\n",
+      " * [new branch]      fix/multihot-schemas    -> origin/fix/multihot-schemas\n",
+      " * [new branch]      fix/pkg-build-lib       -> origin/fix/pkg-build-lib\n",
+      " * [new branch]      fix/pytest-feast        -> origin/fix/pytest-feast\n",
+      " * [new branch]      fix/skipped-tests       -> origin/fix/skipped-tests\n",
+      " * [new branch]      fix/tf-input-shapes     -> origin/fix/tf-input-shapes\n",
+      " * [new branch]      fix/torch-importorskip  -> origin/fix/torch-importorskip\n",
+      " * [new branch]      fix_model_outputnames   -> origin/fix_model_outputnames\n",
+      " * [new branch]      fix_nb                  -> origin/fix_nb\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      laiacano/slack-notify   -> origin/laiacano/slack-notify\n",
+      " * [new branch]      laiacano/transformer-import -> origin/laiacano/transformer-import\n",
+      " * [new branch]      laiacano/upgrade-feast  -> origin/laiacano/upgrade-feast\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      merlin_models_xgboost   -> origin/merlin_models_xgboost\n",
+      " * [new branch]      migration/from-nvt      -> origin/migration/from-nvt\n",
+      " * [new branch]      polish/remove-dtype-matching -> origin/polish/remove-dtype-matching\n",
+      " * [new branch]      radekosmulski-patch-1   -> origin/radekosmulski-patch-1\n",
+      " * [new branch]      radekosmulski-patch-1-1 -> origin/radekosmulski-patch-1-1\n",
+      " * [new branch]      refactor/dtypes         -> origin/refactor/dtypes\n",
+      " * [new branch]      refactor/organize-tests -> origin/refactor/organize-tests\n",
+      " * [new branch]      refactor/schema-validation-hook -> origin/refactor/schema-validation-hook\n",
+      " * [new branch]      refactor/virtual-dataframe -> origin/refactor/virtual-dataframe\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      run_triton_utils        -> origin/run_triton_utils\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      update-reqs             -> origin/update-reqs\n",
+      " * [new branch]      update/precommit-hooks  -> origin/update/precommit-hooks\n",
+      " * [new branch]      use_dataloader          -> origin/use_dataloader\n",
+      " * [new branch]      v0.0.1-docs             -> origin/v0.0.1-docs\n",
+      " * [new branch]      v0.1.0-docs             -> origin/v0.1.0-docs\n",
+      " * [new tag]         v0.7.0                  -> v0.7.0\n",
+      " * [new tag]         v0.8.0                  -> v0.8.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.04.00               -> v23.04.00\n",
+      " * [new tag]         v0.0.1                  -> v0.0.1\n",
+      " * [new tag]         v0.1.0                  -> v0.1.0\n",
+      " * [new tag]         v0.2.0                  -> v0.2.0\n",
+      " * [new tag]         v0.3.0                  -> v0.3.0\n",
+      " * [new tag]         v0.4.0                  -> v0.4.0\n",
+      " * [new tag]         v0.5.0                  -> v0.5.0\n",
+      " * [new tag]         v0.6.0                  -> v0.6.0\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      "Previous HEAD position was 15c6543 Return the original predicted scores from `SoftmaxSampling` (#290)\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.1.0)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (1.14.0)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (4.0.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=0.2.0->merlin-systems==0.7.0+98.g2b1b90b) (6.0.1)\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
       "Building wheels for collected packages: merlin-systems\n",
       "  Building wheel for merlin-systems (PEP 517): started\n",
       "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-systems: filename=merlin_systems-0.7.0+98.g2b1b90b-py3-none-any.whl size=83152 sha256=929338ae18fc3ba7e4b48667542c61c8468ba170761cc9e43b7060d9fb636b0a\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-gwpk5ek7/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.5.dev0+8.g2b1b90b-py3-none-any.whl size=83188 sha256=1e789fb001120de3654e579f37f3f532fd595058f1c575e3aee285c57468a052\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-dso9c6dl/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
       "Successfully built merlin-systems\n",
       "Installing collected packages: merlin-systems\n",
       "  Attempting uninstall: merlin-systems\n",
-      "    Found existing installation: merlin-systems 0.9.0\n",
-      "    Uninstalling merlin-systems-0.9.0:\n",
-      "      Successfully uninstalled merlin-systems-0.9.0\n",
-      "Successfully installed merlin-systems-0.7.0+98.g2b1b90b\n"
+      "    Found existing installation: merlin-systems 23.2.0\n",
+      "    Uninstalling merlin-systems-23.2.0:\n",
+      "      Successfully uninstalled merlin-systems-23.2.0\n",
+      "Successfully installed merlin-systems-23.5.dev0+8.g2b1b90b\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Previous HEAD position was fd5d3fc Use tf.function for list column operations (#89)\n",
-      "Switched to branch 'main'\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Your branch is up to date with 'origin/main'.\n"
+      "From https://github.com/NVIDIA-Merlin/Transformers4Rec\n",
+      " * [new branch]      DDP_fix                 -> origin/DDP_fix\n",
+      " * [new branch]      HF-update               -> origin/HF-update\n",
+      " * [new branch]      add_benchmarking_scripts -> origin/add_benchmarking_scripts\n",
+      " * [new branch]      add_topk_layer          -> origin/add_topk_layer\n",
+      " * [new branch]      albert17-check          -> origin/albert17-check\n",
+      " * [new branch]      batches                 -> origin/batches\n",
+      " * [new branch]      benfred/datasetschema   -> origin/benfred/datasetschema\n",
+      " * [new branch]      clean_rnn_block         -> origin/clean_rnn_block\n",
+      " * [new branch]      core-schema/deprecation-warning -> origin/core-schema/deprecation-warning\n",
+      " * [new branch]      core-schema/tabular-features -> origin/core-schema/tabular-features\n",
+      " * [new branch]      core-schema/trainer     -> origin/core-schema/trainer\n",
+      " * [new branch]      dataloader              -> origin/dataloader\n",
+      " * [new branch]      dataparallel_fix        -> origin/dataparallel_fix\n",
+      " * [new branch]      doc/supported_transformers -> origin/doc/supported_transformers\n",
+      " * [new branch]      doc_fix                 -> origin/doc_fix\n",
+      " * [new branch]      docs                    -> origin/docs\n",
+      " * [new branch]      etl-nvt                 -> origin/etl-nvt\n",
+      " * [new branch]      examples                -> origin/examples\n",
+      " * [new branch]      fix-data-repartition    -> origin/fix-data-repartition\n",
+      " * [new branch]      fix-failing-ci          -> origin/fix-failing-ci\n",
+      " * [new branch]      fix-inference           -> origin/fix-inference\n",
+      " * [new branch]      fix/transformers_config -> origin/fix/transformers_config\n",
+      " * [new branch]      fix_gettingstarted_nb   -> origin/fix_gettingstarted_nb\n",
+      " * [new branch]      fix_inference           -> origin/fix_inference\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      fix_oom_tests           -> origin/fix_oom_tests\n",
+      " * [new branch]      fix_req_paper_repro     -> origin/fix_req_paper_repro\n",
+      " * [new branch]      fix_stochastic          -> origin/fix_stochastic\n",
+      " * [new branch]      fix_unit_test           -> origin/fix_unit_test\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      github-templates        -> origin/github-templates\n",
+      " * [new branch]      ignore-masking          -> origin/ignore-masking\n",
+      " * [new branch]      laiacano/merlin-core-schema -> origin/laiacano/merlin-core-schema\n",
+      " * [new branch]      laiacano/skip-ci-on-closed-pr -> origin/laiacano/skip-ci-on-closed-pr\n",
+      " * [new branch]      license                 -> origin/license\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_quick_fix       -> origin/masking_quick_fix\n",
+      " * [new branch]      metric-names-prefix     -> origin/metric-names-prefix\n",
+      " * [new branch]      model_save_load         -> origin/model_save_load\n",
+      " * [new branch]      multi_gpu_doc           -> origin/multi_gpu_doc\n",
+      " * [new branch]      multi_gpu_doc_fix       -> origin/multi_gpu_doc_fix\n",
+      " * [new branch]      post_fusion_context     -> origin/post_fusion_context\n",
+      " * [new branch]      pretrained_embeddings_init -> origin/pretrained_embeddings_init\n",
+      " * [new branch]      pretrained_module       -> origin/pretrained_module\n",
+      " * [new branch]      pyt_serving             -> origin/pyt_serving\n",
+      " * [new branch]      pytorch/item-id-aggregator -> origin/pytorch/item-id-aggregator\n",
+      " * [new branch]      pytorch/label_smoothing -> origin/pytorch/label_smoothing\n",
+      " * [new branch]      pytorch/model-and-heads -> origin/pytorch/model-and-heads\n",
+      " * [new branch]      pytorch/model-updates   -> origin/pytorch/model-updates\n",
+      " * [new branch]      read_schema_from_core   -> origin/read_schema_from_core\n",
+      " * [new branch]      recsys22                -> origin/recsys22\n",
+      " * [new branch]      refactor-prediction-task -> origin/refactor-prediction-task\n",
+      " * [new branch]      refactor_part1          -> origin/refactor_part1\n",
+      " * [new branch]      refactor_part2          -> origin/refactor_part2\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      release-jperez999       -> origin/release-jperez999\n",
+      " * [new branch]      remove_paper_assets     -> origin/remove_paper_assets\n",
+      " * [new branch]      romeyn/dev              -> origin/romeyn/dev\n",
+      " * [new branch]      romeyn/transformer-configs -> origin/romeyn/transformer-configs\n",
+      " * [new branch]      save-schema-for-t4rec-model -> origin/save-schema-for-t4rec-model\n",
+      " * [new branch]      schema-pbtxt-bug        -> origin/schema-pbtxt-bug\n",
+      " * [new branch]      schema-shape-fix        -> origin/schema-shape-fix\n",
+      " * [new branch]      seq_binary_classification -> origin/seq_binary_classification\n",
+      " * [new branch]      serve_nvt_and__model    -> origin/serve_nvt_and__model\n",
+      " * [new branch]      session_features        -> origin/session_features\n",
+      " * [new branch]      slim_doc_deps           -> origin/slim_doc_deps\n",
+      " * [new branch]      soft_embeddings         -> origin/soft_embeddings\n",
+      " * [new branch]      ssn_seed                -> origin/ssn_seed\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      stochastic_noise        -> origin/stochastic_noise\n",
+      " * [new branch]      stochastic_noise2       -> origin/stochastic_noise2\n",
+      " * [new branch]      synthetic-data          -> origin/synthetic-data\n",
+      " * [new branch]      t4rec-MM-repro          -> origin/t4rec-MM-repro\n",
+      " * [new branch]      t4rec_paper_repro2      -> origin/t4rec_paper_repro2\n",
+      " * [new branch]      t4rec_refactor          -> origin/t4rec_refactor\n",
+      " * [new branch]      tensorflow              -> origin/tensorflow\n",
+      " * [new branch]      test-data               -> origin/test-data\n",
+      " * [new branch]      test/text_module        -> origin/test/text_module\n",
+      " * [new branch]      testing/updates         -> origin/testing/updates\n",
+      " * [new branch]      tf/example_notebook     -> origin/tf/example_notebook\n",
+      " * [new branch]      tf/fix_compute_loss     -> origin/tf/fix_compute_loss\n",
+      " * [new branch]      tf/fix_graph_mode       -> origin/tf/fix_graph_mode\n",
+      " * [new branch]      tf/model_saving_and_loading -> origin/tf/model_saving_and_loading\n",
+      " * [new branch]      tf/refactor_item_prediction_task -> origin/tf/refactor_item_prediction_task\n",
+      " * [new branch]      tf/refactor_masking     -> origin/tf/refactor_masking\n",
+      " * [new branch]      tf/refactor_ranking_metric -> origin/tf/refactor_ranking_metric\n",
+      " * [new branch]      tf/refactor_transformer_block -> origin/tf/refactor_transformer_block\n",
+      " * [new branch]      tf/save_load_model      -> origin/tf/save_load_model\n",
+      " * [new branch]      tf/test-utils           -> origin/tf/test-utils\n",
+      " * [new branch]      tf/to_tf_model          -> origin/tf/to_tf_model\n",
+      " * [new branch]      torch/demo_utils        -> origin/torch/demo_utils\n",
+      " * [new branch]      torch/fit_eval          -> origin/torch/fit_eval\n",
+      " * [new branch]      torch/fix_evaluation    -> origin/torch/fix_evaluation\n",
+      " * [new branch]      torch/fix_examples_utils -> origin/torch/fix_examples_utils\n",
+      " * [new branch]      torch/fix_wipe_memory   -> origin/torch/fix_wipe_memory\n",
+      " * [new branch]      torch/label_smoothing_loss -> origin/torch/label_smoothing_loss\n",
+      " * [new branch]      torch/next_item_prediction -> origin/torch/next_item_prediction\n",
+      " * [new branch]      torch/stochastic_swap_noise -> origin/torch/stochastic_swap_noise\n",
+      " * [new branch]      trainer_predict_step    -> origin/trainer_predict_step\n",
+      " * [new branch]      tutorial                -> origin/tutorial\n",
+      " * [new branch]      unittest_endtoend_multi -> origin/unittest_endtoend_multi\n",
+      " * [new branch]      update/torchmetrics     -> origin/update/torchmetrics\n",
+      " * [new branch]      utils                   -> origin/utils\n",
+      " * [new branch]      v0.1.2-docs             -> origin/v0.1.2-docs\n",
+      " * [new branch]      v0.1.3-docs             -> origin/v0.1.3-docs\n",
+      " * [new branch]      v0.1.4-docs             -> origin/v0.1.4-docs\n",
+      " * [new branch]      v0.1.5-docs             -> origin/v0.1.5-docs\n",
+      " * [new branch]      v0.1.6-docs             -> origin/v0.1.6-docs\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "From https://github.com/NVIDIA-Merlin/dataloader\n",
-      " * branch            main       -> FETCH_HEAD\n",
-      "   5b3fe46..d9e97b4  main       -> origin/main\n"
+      " * [new branch]      v0.1.7-docs             -> origin/v0.1.7-docs\n",
+      " * [new tag]         v0.1.14                 -> v0.1.14\n",
+      " * [new tag]         v0.1.15                 -> v0.1.15\n",
+      " * [new tag]         v0.1.16                 -> v0.1.16\n",
+      " * [new tag]         v23.04.00               -> v23.04.00\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      " * [new tag]           custom_dataloader       -> custom_dataloader\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.1.10                 -> v0.1.10\n",
+      " * [new tag]           v0.1.11                 -> v0.1.11\n",
+      " * [new tag]           v0.1.12                 -> v0.1.12\n",
+      " * [new tag]           v0.1.13                 -> v0.1.13\n",
+      " * [new tag]           v0.1.2                  -> v0.1.2\n",
+      " * [new tag]           v0.1.3                  -> v0.1.3\n",
+      " * [new tag]           v0.1.4                  -> v0.1.4\n",
+      " * [new tag]           v0.1.5                  -> v0.1.5\n",
+      " * [new tag]           v0.1.6                  -> v0.1.6\n",
+      " * [new tag]           v0.1.7                  -> v0.1.7\n",
+      " * [new tag]           v0.1.8                  -> v0.1.8\n",
+      " * [new tag]           v0.1.9                  -> v0.1.9\n",
+      "Previous HEAD position was bffb8476 Adjust serving notebook to account for underlying shape changes (#631)\n",
+      "Switched to a new branch 'main'\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Updating 5b3fe46..d9e97b4\n",
-      "Fast-forward\n",
-      " .github/workflows/check-base-branch.yaml           |   9 +\n",
-      " .github/workflows/cpu-ci.yml                       |  83 +----\n",
-      " .github/workflows/cpu-packages.yml                 | 125 +++++++\n",
-      " .github/workflows/docs-sched-rebuild.yaml          |   7 +-\n",
-      " .github/workflows/gpu-ci.yml                       |   2 +-\n",
-      " .github/workflows/jax.yaml                         |   2 +-\n",
-      " .github/workflows/models.yml                       |  43 +++\n",
-      " .github/workflows/nvtabular.yml                    |  43 +++\n",
-      " .github/workflows/release-drafter.yaml             |   2 +-\n",
-      " .github/workflows/set-stable-branch.yaml           |  10 +\n",
-      " .github/workflows/systems.yml                      |  43 +++\n",
-      " .github/workflows/tensorflow.yml                   |   2 +-\n",
-      " .github/workflows/torch.yaml                       |   2 +-\n",
-      " .github/workflows/transformers4rec.yml             |  43 +++\n",
-      " .pre-commit-config.yaml                            |  14 +-\n",
-      " ci/pr.gpu.Jenkinsfile                              |  44 +++\n",
-      " docs/README.md                                     |  28 +-\n",
-      " examples/01a-Getting-started-Tensorflow.ipynb      |   5 +-\n",
-      " examples/01b-Getting-started-Pytorch.ipynb         |   5 +-\n",
-      " .../02-Multi-GPU-Tensorflow-with-Horovod.ipynb     | 371 ++++++++++++++++++\n",
-      " merlin/dataloader/jax.py                           |  52 +--\n",
-      " merlin/dataloader/loader_base.py                   | 413 +++++++++------------\n",
-      " merlin/dataloader/ops/embeddings.py                | 110 ++++++\n",
-      " merlin/dataloader/ops/embeddings/__init__.py       |  15 -\n",
-      " merlin/dataloader/ops/embeddings/embedding_op.py   | 237 ------------\n",
-      " .../dataloader/ops/embeddings/tf_embedding_op.py   | 101 -----\n",
-      " .../ops/embeddings/torch_embedding_op.py           | 106 ------\n",
-      " merlin/dataloader/ops/padding.py                   |  88 +++++\n",
-      " merlin/dataloader/tensorflow.py                    | 337 +++++------------\n",
-      " merlin/dataloader/torch.py                         | 225 +++++------\n",
-      " merlin/dataloader/utils/tf/tf_trainer.py           |  13 +-\n",
-      " requirements/base.txt                              |   2 +-\n",
-      " tests/conftest.py                                  |  11 +-\n",
-      " .../test_multi_GPU_with_horovod_and_tensorflow.py  |  28 ++\n",
-      " tests/unit/dataloader/test_array_dataloader.py     |  57 +++\n",
-      " tests/unit/dataloader/test_array_to_tensorflow.py  |  54 +++\n",
-      " tests/unit/dataloader/test_array_to_torch.py       |  69 ++++\n",
-      " .../{test_tf_embeddings.py => test_embeddings.py}  | 188 +++++-----\n",
-      " tests/unit/dataloader/test_jax_dataloader.py       |  29 +-\n",
-      " tests/unit/dataloader/test_padding.py              |  46 +++\n",
-      " tests/unit/dataloader/test_tf_dataloader.py        | 358 +++++++++---------\n",
-      " tests/unit/dataloader/test_torch_dataloader.py     | 245 ++++++++----\n",
-      " tests/unit/dataloader/test_torch_embeddings.py     | 242 ------------\n",
-      " tox.ini                                            |  55 +++\n",
-      " 44 files changed, 2154 insertions(+), 1810 deletions(-)\n",
-      " create mode 100644 .github/workflows/check-base-branch.yaml\n",
-      " create mode 100644 .github/workflows/cpu-packages.yml\n",
-      " create mode 100644 .github/workflows/models.yml\n",
-      " create mode 100644 .github/workflows/nvtabular.yml\n",
-      " create mode 100644 .github/workflows/set-stable-branch.yaml\n",
-      " create mode 100644 .github/workflows/systems.yml\n",
-      " create mode 100644 .github/workflows/transformers4rec.yml\n",
-      " create mode 100644 ci/pr.gpu.Jenkinsfile\n",
-      " create mode 100644 examples/02-Multi-GPU-Tensorflow-with-Horovod.ipynb\n",
-      " create mode 100644 merlin/dataloader/ops/embeddings.py\n",
-      " delete mode 100644 merlin/dataloader/ops/embeddings/__init__.py\n",
-      " delete mode 100644 merlin/dataloader/ops/embeddings/embedding_op.py\n",
-      " delete mode 100644 merlin/dataloader/ops/embeddings/tf_embedding_op.py\n",
-      " delete mode 100644 merlin/dataloader/ops/embeddings/torch_embedding_op.py\n",
-      " create mode 100644 merlin/dataloader/ops/padding.py\n",
-      " create mode 100644 tests/examples/test_multi_GPU_with_horovod_and_tensorflow.py\n",
-      " create mode 100644 tests/unit/dataloader/test_array_dataloader.py\n",
-      " create mode 100644 tests/unit/dataloader/test_array_to_tensorflow.py\n",
-      " create mode 100644 tests/unit/dataloader/test_array_to_torch.py\n",
-      " rename tests/unit/dataloader/{test_tf_embeddings.py => test_embeddings.py} (52%)\n",
-      " create mode 100644 tests/unit/dataloader/test_padding.py\n",
-      " delete mode 100644 tests/unit/dataloader/test_torch_embeddings.py\n",
-      "Processing /dataloader\n",
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /transformers4rec\n",
       "  Installing build dependencies: started\n",
       "  Installing build dependencies: finished with status 'done'\n",
       "  Getting requirements to build wheel: started\n",
       "  Getting requirements to build wheel: finished with status 'done'\n",
       "    Preparing wheel metadata: started\n",
       "    Preparing wheel metadata: finished with status 'done'\n",
-      "Requirement already satisfied: merlin-core>=23.04.00 in /usr/local/lib/python3.8/dist-packages (from merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
-      "Requirement already satisfied: betterproto<2.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.5)\n",
-      "Requirement already satisfied: packaging in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (22.0)\n",
-      "Requirement already satisfied: pyarrow>=5.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.0.0)\n",
-      "Requirement already satisfied: pandas<1.6.0dev0,>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.5)\n",
-      "Requirement already satisfied: protobuf>=3.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.19.6)\n",
-      "Requirement already satisfied: numpy>=1.22.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.22.4)\n",
-      "Requirement already satisfied: fsspec>=2022.7.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.5.0)\n",
-      "Requirement already satisfied: tensorflow-metadata>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.12.0)\n",
-      "Requirement already satisfied: dask-cuda>=22.12.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (23.4.0)\n",
-      "Requirement already satisfied: distributed>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
-      "Requirement already satisfied: dask>=2022.11.1 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2023.4.1)\n",
-      "Requirement already satisfied: numba>=0.54 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.56.4)\n",
-      "Requirement already satisfied: pynvml<11.5,>=11.0.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (11.4.1)\n",
-      "Requirement already satisfied: tqdm>=4.0 in /usr/local/lib/python3.8/dist-packages (from merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.64.1)\n",
-      "Requirement already satisfied: stringcase in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.2.0)\n",
-      "Requirement already satisfied: grpclib in /usr/local/lib/python3.8/dist-packages (from betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.4.3)\n",
-      "Requirement already satisfied: python-dateutil>=2.7.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.8.2)\n",
-      "Requirement already satisfied: pytz>=2017.3 in /usr/local/lib/python3.8/dist-packages (from pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2022.7)\n",
-      "Requirement already satisfied: googleapis-common-protos<2,>=1.52.0 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.57.0)\n",
-      "Requirement already satisfied: absl-py<2.0.0,>=0.9 in /usr/local/lib/python3.8/dist-packages (from tensorflow-metadata>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Requirement already satisfied: zict>=0.1.3 in /usr/local/lib/python3.8/dist-packages (from dask-cuda>=22.12.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
-      "Requirement already satisfied: tornado>=6.0.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.1)\n",
-      "Requirement already satisfied: tblib>=1.6.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.7.0)\n",
-      "Requirement already satisfied: msgpack>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.4)\n",
-      "Requirement already satisfied: jinja2>=2.10.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.1.2)\n",
-      "Requirement already satisfied: cloudpickle>=1.5.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.2.0)\n",
-      "Requirement already satisfied: click>=8.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (8.1.3)\n",
-      "Requirement already satisfied: psutil>=5.7.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.9.4)\n",
-      "Requirement already satisfied: urllib3>=1.24.3 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.26.13)\n",
-      "Requirement already satisfied: toolz>=0.10.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.12.0)\n",
-      "Requirement already satisfied: sortedcontainers>=2.0.5 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.4.0)\n",
-      "Requirement already satisfied: pyyaml>=5.3.1 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0)\n",
-      "Requirement already satisfied: locket>=1.0.0 in /usr/local/lib/python3.8/dist-packages (from distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.0)\n",
-      "Requirement already satisfied: importlib-metadata>=4.13.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (5.2.0)\n",
-      "Requirement already satisfied: partd>=1.2.0 in /usr/local/lib/python3.8/dist-packages (from dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.3.0)\n",
-      "Requirement already satisfied: setuptools in /usr/lib/python3/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (45.2.0)\n",
-      "Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.8/dist-packages (from numba>=0.54->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (0.39.1)\n",
-      "Requirement already satisfied: h2<5,>=3.1.0 in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.1.0)\n",
-      "Requirement already satisfied: multidict in /usr/local/lib/python3.8/dist-packages (from grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.4)\n",
-      "Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.7.3->pandas<1.6.0dev0,>=1.2.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.14.0)\n",
-      "Requirement already satisfied: heapdict in /usr/local/lib/python3.8/dist-packages (from zict>=0.1.3->dask-cuda>=22.12.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (1.0.1)\n",
-      "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.8/dist-packages (from jinja2>=2.10.3->distributed>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (2.1.1)\n",
-      "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.8/dist-packages (from importlib-metadata>=4.13.0->dask>=2022.11.1->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (3.11.0)\n",
-      "Requirement already satisfied: hyperframe<7,>=6.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (6.0.1)\n",
-      "Requirement already satisfied: hpack<5,>=4.0 in /usr/local/lib/python3.8/dist-packages (from h2<5,>=3.1.0->grpclib->betterproto<2.0.0->merlin-core>=23.04.00->merlin-dataloader==0.0.2+72.gd9e97b4) (4.0.0)\n",
-      "Building wheels for collected packages: merlin-dataloader\n",
-      "  Building wheel for merlin-dataloader (PEP 517): started\n",
-      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
-      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-0.0.2+72.gd9e97b4-py3-none-any.whl size=34881 sha256=3b59ffde476328ed024b3610d55773d48ee2a39a5c9dcc7bc4429f86ecdb3307\n",
-      "  Stored in directory: /tmp/pip-ephem-wheel-cache-3z4lu_lg/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
-      "Successfully built merlin-dataloader\n"
+      "Building wheels for collected packages: transformers4rec\n",
+      "  Building wheel for transformers4rec (PEP 517): started\n",
+      "  Building wheel for transformers4rec (PEP 517): finished with status 'done'\n",
+      "  Created wheel for transformers4rec: filename=transformers4rec-23.5.dev0+11.ga070e77f-py3-none-any.whl size=481639 sha256=f084abe1999165aea2adf372e62f46aa50356b2b0eab88960b98b57a3b78b78d\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-0i0a5fke/wheels/24/44/e3/c29f7de8e7315585705f880ad32ffeae66fcaeb79003405ef6\n",
+      "Successfully built transformers4rec\n",
+      "Installing collected packages: transformers4rec\n",
+      "  Attempting uninstall: transformers4rec\n",
+      "    Found existing installation: transformers4rec 23.2.0\n",
+      "    Uninstalling transformers4rec-23.2.0:\n",
+      "      Successfully uninstalled transformers4rec-23.2.0\n",
+      "Successfully installed transformers4rec-23.5.dev0+11.ga070e77f\n"
      ]
     },
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "ERROR: nvtabular 1.6.0+66.g67136eba has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n",
-      "ERROR: merlin-models 0.9.0+157.gd8133b8f has requirement merlin-dataloader>=23.4.0, but you'll have merlin-dataloader 0.0.2+72.gd9e97b4 which is incompatible.\n"
+      "Note: switching to 'origin/release-23.04'.\n",
+      "\n",
+      "You are in 'detached HEAD' state. You can look around, make experimental\n",
+      "changes and commit them, and you can discard any commits you make in this\n",
+      "state without impacting any branches by switching back to a branch.\n",
+      "\n",
+      "If you want to create a new branch to retain commits you create, you may\n",
+      "do so (now or later) by using -c with the switch command. Example:\n",
+      "\n",
+      "  git switch -c <new-branch-name>\n",
+      "\n",
+      "Or undo this operation with:\n",
+      "\n",
+      "  git switch -\n",
+      "\n",
+      "Turn off this advice by setting config variable advice.detachedHead to false\n",
+      "\n",
+      "HEAD is now at 2516efb Return version 23.04.00 from versions\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Installing collected packages: merlin-dataloader\n",
-      "  Attempting uninstall: merlin-dataloader\n",
-      "    Found existing installation: merlin-dataloader 23.4.0\n",
-      "    Uninstalling merlin-dataloader-23.4.0:\n",
-      "      Successfully uninstalled merlin-dataloader-23.4.0\n",
-      "Successfully installed merlin-dataloader-0.0.2+72.gd9e97b4\n"
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.4.0-py3-none-any.whl size=82535 sha256=229914452c3a872d916e197689a80000fc868685acd4949a3c6ba707e88e3d30\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-klnajv41/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 23.5.dev0+8.g2b1b90b\n",
+      "    Uninstalling merlin-systems-23.5.dev0+8.g2b1b90b:\n",
+      "      Successfully uninstalled merlin-systems-23.5.dev0+8.g2b1b90b\n",
+      "Successfully installed merlin-systems-23.4.0\n"
      ]
     }
    ],
    "source": [
     "%%bash\n",
+    "cd /core\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /dataloader\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /nvtabular\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /models\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
     "\n",
-    "cd /models && git checkout main && git pull origin main && pip install .\n",
-    "cd /core && git checkout main && git pull origin main && pip install .\n",
-    "cd /nvtabular && git checkout main && git pull origin main && pip install .\n",
-    "cd /systems && git checkout main && git pull origin main && pip install .\n",
-    "cd /dataloader && git checkout main && git pull origin main && pip install ."
+    "cd /systems\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /transformers4rec\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /systems\n",
+    "git checkout origin/release-23.04\n",
+    "pip install . --no-deps"
    ]
   },
   {
@@ -1405,15 +912,15 @@
      "text": [
       "Collecting gdown\n",
       "  Downloading gdown-4.7.1-py3-none-any.whl (15 kB)\n",
-      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
-      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.1)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.65.0)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.11.2)\n",
       "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.9.0)\n",
-      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.1)\n",
-      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.64.1)\n",
-      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.3.2.post1)\n",
-      "Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (2.1.1)\n",
-      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.26.13)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.28.2)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.4)\n",
       "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (1.25.8)\n",
+      "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (3.1.0)\n",
       "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
       "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
       "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
@@ -1427,9 +934,9 @@
      "text": [
       "Downloading...\n",
       "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
-      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=c6c52af8-65d0-4308-84a7-f680f5add55c\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=c0a77044-3198-4431-915f-3fbdaf1e7f79\n",
       "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
-      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.16MB/s]\n"
+      "100%|██████████| 43.4M/43.4M [00:07<00:00, 6.19MB/s]\n"
      ]
     },
     {
@@ -1442,27 +949,27 @@
       "Get:4 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
       "Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
       "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
-      "Get:7 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
-      "Get:8 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
-      "Get:9 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
-      "Get:10 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
-      "Get:11 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
-      "Get:12 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
-      "Get:13 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
-      "Get:14 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:7 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:9 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:11 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
       "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
-      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
-      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
-      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
       "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
       "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
-      "Fetched 27.3 MB in 9s (2917 kB/s)\n",
+      "Fetched 27.3 MB in 10s (2846 kB/s)\n",
       "Reading package lists...\n",
       "Reading package lists...\n",
       "Building dependency tree...\n",
       "Reading state information...\n",
       "unzip is already the newest version (6.0-25ubuntu1.1).\n",
-      "0 upgraded, 0 newly installed, 0 to remove and 99 not upgraded.\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 81 not upgraded.\n",
       "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
       "   creating: ecom_dataset/0001/\n",
       "  inflating: ecom_dataset/0001/valid.parquet  \n",
@@ -1493,343 +1000,72 @@
   {
    "cell_type": "code",
    "execution_count": 3,
-   "id": "4a0105a7",
+   "id": "fd80de2a",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-05-09 06:24:34.941906: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-05-09 06:24:37.290386: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 06:24:37.290801: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
+      "2023-05-09 06:24:37.290937: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[INFO]: sparse_operation_kit is imported\n",
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.base has been moved to tensorflow.python.trackable.base. The old module will be deleted in version 2.11.\n",
+      "[SOK INFO] Import /usr/local/lib/python3.8/dist-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg/sparse_operation_kit/lib/libsok_experiment.so\n"
+     ]
+    },
+    {
+     "ename": "TypeError",
+     "evalue": "init() got an unexpected keyword argument 'use_legacy_optimizer'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[3], line 11\u001b[0m\n\u001b[1;32m      8\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mschema\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtags\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Tags\n\u001b[1;32m      9\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mio\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdataset\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Dataset\n\u001b[0;32m---> 11\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mmm\u001b[39;00m\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/__init__.py:34\u001b[0m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcross\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CrossBlock\n\u001b[1;32m     33\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdlrm\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DLRMBlock\n\u001b[0;32m---> 34\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mexperts\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CGCBlock, ExpertsGate, MMOEBlock, PLEBlock\n\u001b[1;32m     35\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minteraction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     36\u001b[0m     DotProductInteraction,\n\u001b[1;32m     37\u001b[0m     FMBlock,\n\u001b[1;32m     38\u001b[0m     FMPairwiseInteraction,\n\u001b[1;32m     39\u001b[0m )\n\u001b[1;32m     40\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmlp\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DenseResidualBlock, MLPBlock\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/blocks/experts.py:28\u001b[0m\n\u001b[1;32m     21\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Block\n\u001b[1;32m     22\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcombinators\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     23\u001b[0m     ParallelBlock,\n\u001b[1;32m     24\u001b[0m     SequentialBlock,\n\u001b[1;32m     25\u001b[0m     TabularBlock,\n\u001b[1;32m     26\u001b[0m     WithShortcut,\n\u001b[1;32m     27\u001b[0m )\n\u001b[0;32m---> 28\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m get_task_names_from_outputs\n\u001b[1;32m     29\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction_tasks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m ParallelPredictionBlock, PredictionTask\n\u001b[1;32m     30\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtyping\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularData\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/models/base.py:51\u001b[0m\n\u001b[1;32m     49\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Prediction, PredictionContext, TensorLike\n\u001b[1;32m     50\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtabular\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularBlock\n\u001b[0;32m---> 51\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdistributed\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbackend\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m hvd, hvd_installed\n\u001b[1;32m     52\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minputs\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m InputBlock\n\u001b[1;32m     53\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mloader\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Loader\n",
+      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/distributed/backend.py:33\u001b[0m\n\u001b[1;32m     29\u001b[0m         \u001b[38;5;28;01mpass\u001b[39;00m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m sok_installed:\n\u001b[0;32m---> 33\u001b[0m     \u001b[43msok\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minit\u001b[49m\u001b[43m(\u001b[49m\u001b[43muse_legacy_optimizer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m)\u001b[49m\n",
+      "\u001b[0;31mTypeError\u001b[0m: init() got an unexpected keyword argument 'use_legacy_optimizer'"
+     ]
+    }
+   ],
    "source": [
-    "# !cd /dataloader && git checkout main && git pull origin main && git checkout ce2215d8f871d0fb8c71900f7b914a226aea7c24 && pip install ."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 4,
-   "id": "8101aa27",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# !cd /core && git checkout main && git pull origin main && pip install ."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "id": "0f799172",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# %%writefile /core/merlin/dag/graph.py\n",
-    "\n",
-    "# #\n",
-    "# # Copyright (c) 2022, NVIDIA CORPORATION.\n",
-    "# #\n",
-    "# # Licensed under the Apache License, Version 2.0 (the \"License\");\n",
-    "# # you may not use this file except in compliance with the License.\n",
-    "# # You may obtain a copy of the License at\n",
-    "# #\n",
-    "# #     http://www.apache.org/licenses/LICENSE-2.0\n",
-    "# #\n",
-    "# # Unless required by applicable law or agreed to in writing, software\n",
-    "# # distributed under the License is distributed on an \"AS IS\" BASIS,\n",
-    "# # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n",
-    "# # See the License for the specific language governing permissions and\n",
-    "# # limitations under the License.\n",
-    "# #\n",
-    "\n",
-    "# import logging\n",
-    "# from collections import deque\n",
-    "# from typing import Dict, Optional\n",
-    "\n",
-    "# from merlin.dag.node import (\n",
-    "#     Node,\n",
-    "#     _combine_schemas,\n",
-    "#     iter_nodes,\n",
-    "#     postorder_iter_nodes,\n",
-    "#     preorder_iter_nodes,\n",
-    "# )\n",
-    "# from merlin.schema import Schema\n",
-    "\n",
-    "# LOG = logging.getLogger(\"merlin\")\n",
-    "\n",
-    "\n",
-    "# class Graph:\n",
-    "#     \"\"\"\n",
-    "#     Represents an DAG composed of Nodes, each of which contains an operator that\n",
-    "#     transforms dataframes or dataframe-like data\n",
-    "#     \"\"\"\n",
-    "\n",
-    "#     def __init__(self, output_node: Node, subgraphs: Optional[Dict[str, Node]] = None):\n",
-    "#         self.output_node = output_node\n",
-    "#         self.subgraphs = subgraphs or {}\n",
-    "\n",
-    "#         parents_with_deps = self.output_node.parents_with_dependencies\n",
-    "#         parents_with_deps.append(output_node)\n",
-    "\n",
-    "#         for name, sg in self.subgraphs.items():\n",
-    "#             if sg not in parents_with_deps:\n",
-    "#                 raise ValueError(\n",
-    "#                     f\"The output node of subgraph {name} does not exist in the provided graph.\"\n",
-    "#                 )\n",
-    "\n",
-    "#     def subgraph(self, name: str) -> \"Graph\":\n",
-    "#         if name not in self.subgraphs.keys():\n",
-    "#             raise ValueError(f\"No subgraph named {name}. Options are: {self.subgraphs.keys()}\")\n",
-    "#         return Graph(self.subgraphs[name])\n",
-    "\n",
-    "#     @property\n",
-    "#     def input_dtypes(self):\n",
-    "#         if self.input_schema:\n",
-    "#             return {\n",
-    "#                 name: col_schema.dtype\n",
-    "#                 for name, col_schema in self.input_schema.column_schemas.items()\n",
-    "#             }\n",
-    "#         else:\n",
-    "#             return {}\n",
-    "\n",
-    "#     @property\n",
-    "#     def output_dtypes(self):\n",
-    "#         if self.output_schema:\n",
-    "#             return {\n",
-    "#                 name: col_schema.dtype\n",
-    "#                 for name, col_schema in self.output_schema.column_schemas.items()\n",
-    "#             }\n",
-    "#         else:\n",
-    "#             return {}\n",
-    "\n",
-    "#     @property\n",
-    "#     def column_mapping(self):\n",
-    "#         nodes = preorder_iter_nodes(self.output_node)\n",
-    "#         column_mapping = self.output_node.column_mapping\n",
-    "#         for node in list(nodes)[1:]:\n",
-    "#             node_map = node.column_mapping\n",
-    "#             for output_col, input_cols in column_mapping.items():\n",
-    "#                 early_inputs = []\n",
-    "#                 for input_col in input_cols:\n",
-    "#                     early_inputs += node_map.get(input_col, [input_col])\n",
-    "#                 column_mapping[output_col] = early_inputs\n",
-    "\n",
-    "#         return column_mapping\n",
-    "\n",
-    "#     def construct_schema(self, root_schema: Schema, preserve_dtypes=False) -> \"Graph\":\n",
-    "#         \"\"\"\n",
-    "#         Given the schema of a dataset to transform, determine the output schema of the graph\n",
-    "\n",
-    "#         Parameters\n",
-    "#         ----------\n",
-    "#         root_schema : Schema\n",
-    "#             The schema of a dataset to be transformed with this DAG\n",
-    "#         preserve_dtypes : bool, optional\n",
-    "#             Whether to keep any dtypes that may already be present in the schemas, by default False\n",
-    "\n",
-    "#         Returns\n",
-    "#         -------\n",
-    "#         Graph\n",
-    "#             This DAG after the schemas have been filled in\n",
-    "#         \"\"\"\n",
-    "#         nodes = list(postorder_iter_nodes(self.output_node))\n",
-    "\n",
-    "#         self._compute_node_schemas(root_schema, nodes, preserve_dtypes)\n",
-    "#         # self._validate_node_schemas(root_schema, nodes, preserve_dtypes)\n",
-    "\n",
-    "#         return self\n",
-    "\n",
-    "#     def _compute_node_schemas(self, root_schema, nodes, preserve_dtypes=False):\n",
-    "#         for node in nodes:\n",
-    "#             node.compute_schemas(root_schema, preserve_dtypes=preserve_dtypes)\n",
-    "\n",
-    "#     def _validate_node_schemas(self, root_schema, nodes, strict_dtypes=False):\n",
-    "#         for node in nodes:\n",
-    "#             node.validate_schemas(root_schema, strict_dtypes=strict_dtypes)\n",
-    "\n",
-    "#     @property\n",
-    "#     def input_schema(self):\n",
-    "#         # leaf_node input and output schemas are the same (aka selection)\n",
-    "#         return _combine_schemas(self.leaf_nodes)\n",
-    "\n",
-    "#     @property\n",
-    "#     def leaf_nodes(self):\n",
-    "#         return [node for node in postorder_iter_nodes(self.output_node) if not node.parents]\n",
-    "\n",
-    "#     @property\n",
-    "#     def output_schema(self):\n",
-    "#         return self.output_node.output_schema\n",
-    "\n",
-    "#     def _input_columns(self):\n",
-    "#         input_cols = []\n",
-    "#         for node in iter_nodes([self.output_node]):\n",
-    "#             upstream_output_cols = []\n",
-    "\n",
-    "#             for upstream_node in node.parents_with_dependencies:\n",
-    "#                 upstream_output_cols += upstream_node.output_columns.names\n",
-    "\n",
-    "#             upstream_output_cols = _get_unique(upstream_output_cols)\n",
-    "#             input_cols += list(set(node.input_columns.names) - set(upstream_output_cols))\n",
-    "\n",
-    "#         return _get_unique(input_cols)\n",
-    "\n",
-    "#     def remove_inputs(self, to_remove):\n",
-    "#         \"\"\"\n",
-    "#         Removes columns from a Graph\n",
-    "\n",
-    "#         Starting at the leaf nodes, trickle down looking for columns to remove,\n",
-    "#         when found remove but then must propagate the removal of any other\n",
-    "#         output columns derived from that column.\n",
-    "\n",
-    "#         Parameters\n",
-    "#         -----------\n",
-    "#         graph : Graph\n",
-    "#             The graph to remove columns from\n",
-    "#         to_remove : array_like\n",
-    "#             A list of input column names to remove from the graph\n",
-    "\n",
-    "#         Returns\n",
-    "#         -------\n",
-    "#         Graph\n",
-    "#             The same graph with columns removed\n",
-    "#         \"\"\"\n",
-    "#         nodes_to_process = deque([(node, to_remove) for node in self.leaf_nodes])\n",
-    "\n",
-    "#         while nodes_to_process:\n",
-    "#             node, columns_to_remove = nodes_to_process.popleft()\n",
-    "#             if node.input_schema and len(node.input_schema):\n",
-    "#                 output_columns_to_remove = node.remove_inputs(columns_to_remove)\n",
-    "\n",
-    "#                 for child in node.children:\n",
-    "#                     nodes_to_process.append(\n",
-    "#                         (child, list(set(to_remove + output_columns_to_remove)))\n",
-    "#                     )\n",
-    "\n",
-    "#                     if not len(node.input_schema):\n",
-    "#                         node.remove_child(child)\n",
-    "\n",
-    "#             # remove any dependencies that do not have an output schema\n",
-    "#             node.dependencies = [\n",
-    "#                 dep for dep in node.dependencies if dep.output_schema and len(dep.output_schema)\n",
-    "#             ]\n",
-    "\n",
-    "#             if not node.input_schema or not len(node.input_schema):\n",
-    "#                 for parent in node.parents:\n",
-    "#                     parent.remove_child(node)\n",
-    "#                 for dependency in node.dependencies:\n",
-    "#                     dependency.remove_child(node)\n",
-    "#                 del node\n",
-    "\n",
-    "#         return self\n",
-    "\n",
-    "#     @classmethod\n",
-    "#     def get_nodes_by_op_type(cls, nodes, op_type):\n",
-    "#         return set(node for node in iter_nodes(nodes) if isinstance(node.op, op_type))\n",
-    "\n",
-    "\n",
-    "# def _get_schemaless_nodes(nodes):\n",
-    "#     schemaless_nodes = []\n",
-    "#     for node in iter_nodes(nodes):\n",
-    "#         if node.input_schema is None:\n",
-    "#             schemaless_nodes.append(node)\n",
-    "\n",
-    "#     return set(schemaless_nodes)\n",
-    "\n",
-    "\n",
-    "# def _get_unique(cols):\n",
-    "#     # Need to preserve order in unique-column list\n",
-    "#     return list({x: x for x in cols}.keys())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "id": "ab4f272d",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# !cd /core && pip install ."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "id": "fd80de2a",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import os\n",
-    "# os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
-    "import gc\n",
-    "import numpy as np"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 8,
-   "id": "d5a1e610",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-05-09 02:55:54.458160: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n"
-     ]
-    }
-   ],
-   "source": [
-    "import tensorflow as tf\n",
-    "\n",
-    "from merlin.schema.tags import Tags\n",
-    "from merlin.io.dataset import Dataset"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "id": "ceb3ae93",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-05-09 02:55:56.823309: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 02:55:56.823677: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 02:55:56.823805: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[INFO]: sparse_operation_kit is imported\n",
-      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.base has been moved to tensorflow.python.trackable.base. The old module will be deleted in version 2.11.\n",
-      "[SOK INFO] Import /usr/local/lib/python3.8/dist-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg/sparse_operation_kit/lib/libsok_experiment.so\n"
-     ]
-    },
-    {
-     "ename": "TypeError",
-     "evalue": "init() got an unexpected keyword argument 'use_legacy_optimizer'",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
-      "Cell \u001b[0;32mIn[9], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m \u001b[38;5;28;01mimport\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m \u001b[38;5;21;01mmm\u001b[39;00m\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/__init__.py:34\u001b[0m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcross\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CrossBlock\n\u001b[1;32m     33\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdlrm\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DLRMBlock\n\u001b[0;32m---> 34\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mexperts\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m CGCBlock, ExpertsGate, MMOEBlock, PLEBlock\n\u001b[1;32m     35\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minteraction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     36\u001b[0m     DotProductInteraction,\n\u001b[1;32m     37\u001b[0m     FMBlock,\n\u001b[1;32m     38\u001b[0m     FMPairwiseInteraction,\n\u001b[1;32m     39\u001b[0m )\n\u001b[1;32m     40\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mblocks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmlp\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m DenseResidualBlock, MLPBlock\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/blocks/experts.py:28\u001b[0m\n\u001b[1;32m     21\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Block\n\u001b[1;32m     22\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcombinators\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m (\n\u001b[1;32m     23\u001b[0m     ParallelBlock,\n\u001b[1;32m     24\u001b[0m     SequentialBlock,\n\u001b[1;32m     25\u001b[0m     TabularBlock,\n\u001b[1;32m     26\u001b[0m     WithShortcut,\n\u001b[1;32m     27\u001b[0m )\n\u001b[0;32m---> 28\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m get_task_names_from_outputs\n\u001b[1;32m     29\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction_tasks\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m ParallelPredictionBlock, PredictionTask\n\u001b[1;32m     30\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtyping\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularData\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/models/base.py:51\u001b[0m\n\u001b[1;32m     49\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mprediction\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Prediction, PredictionContext, TensorLike\n\u001b[1;32m     50\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mcore\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtabular\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m TabularBlock\n\u001b[0;32m---> 51\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mdistributed\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbackend\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m hvd, hvd_installed\n\u001b[1;32m     52\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01minputs\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mbase\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m InputBlock\n\u001b[1;32m     53\u001b[0m \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;21;01mmerlin\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mmodels\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mtf\u001b[39;00m\u001b[38;5;21;01m.\u001b[39;00m\u001b[38;5;21;01mloader\u001b[39;00m \u001b[38;5;28;01mimport\u001b[39;00m Loader\n",
-      "File \u001b[0;32m/usr/local/lib/python3.8/dist-packages/merlin/models/tf/distributed/backend.py:33\u001b[0m\n\u001b[1;32m     29\u001b[0m         \u001b[38;5;28;01mpass\u001b[39;00m\n\u001b[1;32m     32\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m sok_installed:\n\u001b[0;32m---> 33\u001b[0m     \u001b[43msok\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minit\u001b[49m\u001b[43m(\u001b[49m\u001b[43muse_legacy_optimizer\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m)\u001b[49m\n",
-      "\u001b[0;31mTypeError\u001b[0m: init() got an unexpected keyword argument 'use_legacy_optimizer'"
-     ]
-    }
-   ],
-   "source": [
-    "import merlin.models.tf as mm"
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "\n",
+    "import merlin.models.tf as mm"
    ]
   },
   {
@@ -1845,7 +1081,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": null,
    "id": "4ab4e0fb",
    "metadata": {},
    "outputs": [],
@@ -1856,7 +1092,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": null,
    "id": "8d9903e6",
    "metadata": {},
    "outputs": [],
@@ -1875,7 +1111,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": null,
    "id": "410ea223",
    "metadata": {},
    "outputs": [],
@@ -1886,7 +1122,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": null,
    "id": "4328f03a",
    "metadata": {},
    "outputs": [],
@@ -1898,7 +1134,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": null,
    "id": "d5a9dd50",
    "metadata": {},
    "outputs": [],
@@ -1913,47 +1149,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
-   "id": "3116726e",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# cat rees46_schema_modified.pbtxt"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 14,
-   "id": "69e8f95c",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# %%writefile rees46_schema_modified_2.pbtxt\n",
-    "\n",
-    "# feature {\n",
-    "#   name: \"seq\"\n",
-    "#   value_count {\n",
-    "#     min: 2\n",
-    "#   }\n",
-    "#   type: INT\n",
-    "#   int_domain {\n",
-    "#     name: \"seq\"\n",
-    "#     min: 1\n",
-    "#     max: 390000\n",
-    "#     is_categorical: true\n",
-    "#   }\n",
-    "#   annotation {\n",
-    "#     tag: \"item_id\"\n",
-    "#     tag: \"list\"\n",
-    "#     tag: \"categorical\"\n",
-    "#     tag: \"item\"\n",
-    "#   }\n",
-    "# }"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 15,
+   "execution_count": null,
    "id": "a6ade14a",
    "metadata": {},
    "outputs": [],
@@ -2018,82 +1214,20 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": null,
    "id": "7baec64f",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer, xlnet_block = get_model()"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 17,
+   "execution_count": null,
    "id": "523fe2ac",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n",
-      "2023-05-09 01:50:35.053579: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:444: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/boolean_mask/GatherV2:0\", shape=(None, 192), dtype=float32), dense_shape=Tensor(\"gradient_tape/model/sequential_block_4/xl_net_block/prepare_transformer_inputs_4/RaggedToTensor_1/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:436: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
-      "677/677 [==============================] - 105s 143ms/step - loss: 7.2880 - recall_at_20: 0.1451 - mrr_at_20: 0.0813 - ndcg_at_20: 0.0954 - map_at_20: 0.0813 - precision_at_20: 0.0073 - regularization_loss: 0.0000e+00 - loss_batch: 7.2857\n",
-      "84/84 [==============================] - 4s 26ms/step - loss: 8.5378 - recall_at_20: 0.2315 - mrr_at_20: 0.0811 - ndcg_at_20: 0.1142 - map_at_20: 0.0811 - precision_at_20: 0.0116 - regularization_loss: 0.0000e+00 - loss_batch: 8.5385\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "{'loss': 8.537825584411621,\n",
-       " 'recall_at_20': 0.2337784469127655,\n",
-       " 'mrr_at_20': 0.07926096022129059,\n",
-       " 'ndcg_at_20': 0.11324834823608398,\n",
-       " 'map_at_20': 0.07926096022129059,\n",
-       " 'precision_at_20': 0.011688923463225365,\n",
-       " 'regularization_loss': 0.0,\n",
-       " 'loss_batch': 8.566910743713379}"
-      ]
-     },
-     "execution_count": 17,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer.fit(\n",
     "    train,\n",
@@ -2113,11408 +1247,27 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 18,
+   "execution_count": null,
    "id": "569113e1",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: t4rec_model/assets\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: t4rec_model/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  return generic_utils.serialize_keras_object(obj)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer.save('t4rec_model')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 19,
+   "execution_count": null,
    "id": "2b09261c",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "Model(\n",
-       "  (_should_compute_train_metrics_for_batch): <tf.Variable 'should_compute_train_metrics_for_batch:0' shape=() dtype=bool, numpy=True>\n",
-       "  (blocks): _TupleWrapper((SequentialBlock(\n",
-       "    (layers): List(\n",
-       "      (0): ParallelBlock(\n",
-       "        (_aggregation): ConcatFeatures(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (parallel_layers): Dict(\n",
-       "          (categorical): ParallelBlock(\n",
-       "            (parallel_layers): Dict(\n",
-       "              (sess_pid_seq): EmbeddingTable(\n",
-       "                (features): Dict(\n",
-       "                  (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
-       "                )\n",
-       "                (table): Embedding(\n",
-       "                  (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
-       "                  array([[-0.07078984,  0.02619123, -0.0765224 , ..., -0.00312191,\n",
-       "                          -0.05631081,  0.00704953],\n",
-       "                         [ 0.01045333,  0.00758395,  0.04146114, ...,  0.04109409,\n",
-       "                           0.03323384, -0.01482256],\n",
-       "                         [ 0.05135752,  0.00544662,  0.01021936, ...,  0.01505754,\n",
-       "                           0.04705757,  0.05248646],\n",
-       "                         ...,\n",
-       "                         [-0.01608207, -0.01954165, -0.07535209, ..., -0.04260258,\n",
-       "                          -0.01301942, -0.06323248],\n",
-       "                         [-0.06214527, -0.00186577, -0.0687324 , ..., -0.06297008,\n",
-       "                           0.01791379,  0.00888064],\n",
-       "                         [ 0.00934703, -0.02699249, -0.05696923, ..., -0.01498478,\n",
-       "                          -0.02875059, -0.01258981]], dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (1): SequentialBlock(\n",
-       "        (layers): List(\n",
-       "          (0): _Dense(\n",
-       "            (dense): Dense(\n",
-       "              192, activation=linear, use_bias=True\n",
-       "              (kernel): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/kernel:0' shape=(448, 192) dtype=float32, numpy=\n",
-       "              array([[ 0.02981133,  0.06461035,  0.01510283, ...,  0.1004636 ,\n",
-       "                       0.08716937, -0.08222788],\n",
-       "                     [ 0.12464947, -0.01943095, -0.08936852, ..., -0.11199582,\n",
-       "                      -0.00518215,  0.03097023],\n",
-       "                     [-0.05487638, -0.03602364,  0.01802338, ...,  0.07153857,\n",
-       "                      -0.07527662,  0.08495165],\n",
-       "                     ...,\n",
-       "                     [-0.1403924 ,  0.05157026, -0.02877661, ..., -0.06823655,\n",
-       "                      -0.01583085,  0.00734937],\n",
-       "                     [ 0.0970163 ,  0.00122412, -0.06907965, ...,  0.00457447,\n",
-       "                       0.13658312, -0.03208682],\n",
-       "                     [ 0.12975962, -0.08130139,  0.06337038, ..., -0.05003506,\n",
-       "                       0.10430032, -0.0064334 ]], dtype=float32)>\n",
-       "              (bias): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "              array([ 1.43787926e-02,  1.59404390e-02,  1.67473760e-02,  7.21977139e-03,\n",
-       "                      6.33917842e-03,  2.58572530e-02,  3.13014239e-02,  1.73701141e-02,\n",
-       "                      1.48087014e-02,  2.96549569e-03, -2.38333214e-02,  8.77642911e-03,\n",
-       "                      1.06761325e-02,  3.36384363e-02,  4.62334929e-03, -8.29183683e-03,\n",
-       "                     -8.38614441e-03,  5.23438072e-03, -1.13991052e-02, -8.36018473e-03,\n",
-       "                     -1.31951617e-02,  2.81518009e-02, -9.40237835e-04,  9.32820234e-03,\n",
-       "                      1.33291865e-02, -1.77176334e-02,  2.10216315e-03,  1.87406167e-02,\n",
-       "                      1.61009599e-02, -8.48586764e-03, -1.15597923e-03, -3.26531157e-02,\n",
-       "                     -2.06898451e-02,  5.39109018e-03, -1.36626642e-02, -1.38687436e-02,\n",
-       "                     -2.26706192e-02,  6.11577649e-03, -3.18103912e-03,  1.94463357e-02,\n",
-       "                     -8.99321120e-03,  1.10318577e-02, -3.57778568e-04, -2.15437096e-02,\n",
-       "                      8.29706341e-03,  1.93839315e-02, -1.22853033e-02,  4.07569576e-03,\n",
-       "                     -3.85260396e-03,  1.50105879e-02,  2.51611378e-02, -1.21379722e-04,\n",
-       "                     -8.72366596e-03,  1.10414680e-02,  8.01387336e-03,  1.93086620e-02,\n",
-       "                     -1.17792934e-02, -1.27949128e-02, -1.77857298e-02,  6.12063659e-03,\n",
-       "                     -1.06555698e-02,  2.38406751e-02,  1.68557782e-02, -2.46193428e-02,\n",
-       "                     -4.28844243e-04, -9.85239353e-03, -8.28314759e-03, -1.45868491e-02,\n",
-       "                     -2.00257804e-02, -2.40923855e-02, -1.39658488e-02, -1.27546610e-02,\n",
-       "                     -9.04119946e-03, -4.83184028e-03, -2.38742288e-02,  8.41362681e-03,\n",
-       "                      6.28646929e-03, -6.15912909e-03, -1.63500663e-02, -2.31754519e-02,\n",
-       "                      1.32788168e-02,  9.51185077e-03,  1.65086053e-02, -1.60954632e-02,\n",
-       "                      9.85623058e-03,  2.38858704e-02,  3.10745835e-02,  2.13986728e-02,\n",
-       "                      2.30935402e-02,  4.93171439e-03,  2.00362224e-03, -1.62822679e-02,\n",
-       "                     -8.62161350e-03,  4.49663820e-03, -2.08899472e-03, -5.89254498e-03,\n",
-       "                     -2.94782836e-02, -1.22268952e-03, -1.93146132e-02,  1.21866888e-03,\n",
-       "                     -1.87950805e-02,  2.44022720e-02,  1.59054287e-02,  2.21225247e-02,\n",
-       "                      3.15532903e-03,  1.12948762e-02,  8.12306348e-03,  1.56098893e-02,\n",
-       "                     -1.17675038e-02, -1.63580347e-02,  1.88086070e-02, -1.38652390e-02,\n",
-       "                     -3.15350899e-03,  8.77492130e-03,  1.18342219e-02, -1.49739422e-02,\n",
-       "                      6.47581508e-03,  3.03330850e-02, -1.90902874e-02, -1.45000021e-03,\n",
-       "                     -1.03481673e-02,  7.81869609e-03,  1.72040816e-02,  6.01074891e-03,\n",
-       "                     -5.98280178e-03,  1.62119158e-02, -3.46120563e-03,  2.07602121e-02,\n",
-       "                     -2.54524648e-02,  1.74027961e-02, -3.89394991e-04, -1.67317968e-02,\n",
-       "                     -1.35547416e-02, -9.72852856e-03,  1.18460059e-02,  1.24235135e-02,\n",
-       "                     -1.63785629e-02,  1.74656305e-02,  1.90548915e-02,  1.04588689e-03,\n",
-       "                     -1.90762617e-03,  7.47023476e-03, -2.55116820e-02, -1.26734246e-02,\n",
-       "                     -4.49683182e-02,  1.02095297e-02,  1.64573826e-02, -3.88838630e-03,\n",
-       "                      2.11874070e-03,  1.12091172e-02,  3.44686466e-03, -1.45416530e-02,\n",
-       "                     -4.72093653e-03, -8.66287446e-04,  2.89157755e-03, -1.11150099e-02,\n",
-       "                     -6.02090824e-03, -4.13971767e-03, -6.68562716e-05, -5.79372188e-03,\n",
-       "                      4.68081189e-03,  2.69649494e-02, -1.22015532e-02,  5.52360713e-03,\n",
-       "                      1.16638672e-02, -3.86768812e-03, -2.13873144e-02,  1.76261328e-02,\n",
-       "                     -1.74660943e-02, -4.66883089e-03,  6.08942751e-03, -1.52808484e-02,\n",
-       "                      8.08198191e-03, -1.73900351e-02,  2.05766819e-02, -1.57578122e-02,\n",
-       "                     -1.46813886e-02, -3.82549944e-03,  9.23505798e-03,  2.55444204e-04,\n",
-       "                     -1.10080764e-02, -5.10681840e-03, -4.75318544e-03,  1.36948908e-02,\n",
-       "                     -1.06984098e-02, -1.48467710e-02, -4.16625105e-03, -1.44588202e-02,\n",
-       "                      1.68166235e-02,  6.71163388e-03, -1.79299600e-02,  5.36123384e-03],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (2): XLNetBlock(\n",
-       "        (transformer): TFXLNetMainLayer(\n",
-       "          (word_embedding): TFSharedEmbeddings(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (layer): List(\n",
-       "            (0): TFXLNetLayer(\n",
-       "              (rel_attn): TFXLNetRelativeAttention(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
-       "                         1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
-       "                         1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
-       "                         0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
-       "                         0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
-       "                         1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
-       "                         0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
-       "                         1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
-       "                         1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
-       "                         0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
-       "                         1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
-       "                         0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
-       "                         1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
-       "                         1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
-       "                         0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
-       "                         1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
-       "                         1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
-       "                         0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
-       "                         1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
-       "                         1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
-       "                         0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
-       "                         1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
-       "                         1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
-       "                         1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
-       "                         1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
-       "                         1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
-       "                         1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
-       "                         1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
-       "                         1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
-       "                         0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
-       "                         1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
-       "                         1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
-       "                         0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
-       "                         1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
-       "                         1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
-       "                         0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
-       "                         1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
-       "                         1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
-       "                         1.0107577 , 1.0596876 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
-       "                          6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
-       "                         -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
-       "                          1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
-       "                         -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
-       "                         -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
-       "                          5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
-       "                         -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
-       "                          1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
-       "                         -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
-       "                         -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
-       "                          3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
-       "                          1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
-       "                         -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
-       "                          5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
-       "                          1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
-       "                         -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
-       "                         -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
-       "                         -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
-       "                         -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
-       "                         -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
-       "                          3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
-       "                          1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
-       "                         -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
-       "                         -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
-       "                         -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
-       "                         -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
-       "                          3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
-       "                          7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
-       "                         -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
-       "                          1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
-       "                         -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
-       "                         -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
-       "                         -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
-       "                         -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
-       "                          4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
-       "                         -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
-       "                          1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
-       "                         -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
-       "                         -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
-       "                         -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
-       "                         -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
-       "                          3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
-       "                          3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
-       "                         -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
-       "                         -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
-       "                         -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
-       "                          2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
-       "                         -0.12369698, -0.12235671],\n",
-       "                        [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
-       "                          0.02513896,  0.02814367],\n",
-       "                        [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
-       "                          0.13238919, -0.11256532],\n",
-       "                        ...,\n",
-       "                        [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
-       "                         -0.08214942, -0.12410881],\n",
-       "                        [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
-       "                          0.06023917,  0.07214421],\n",
-       "                        [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
-       "                         -0.06763364,  0.05550697]],\n",
-       "                \n",
-       "                       [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
-       "                          0.09601118,  0.09255827],\n",
-       "                        [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
-       "                          0.0475458 , -0.07742295],\n",
-       "                        [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
-       "                         -0.05903677,  0.03677876],\n",
-       "                        ...,\n",
-       "                        [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
-       "                          0.10452053,  0.12009949],\n",
-       "                        [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
-       "                         -0.10300028, -0.1044563 ],\n",
-       "                        [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
-       "                          0.06220397, -0.09111064]],\n",
-       "                \n",
-       "                       [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
-       "                         -0.02168103,  0.01568287],\n",
-       "                        [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
-       "                          0.03995887, -0.01548792],\n",
-       "                        [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
-       "                          0.08776175, -0.08319726],\n",
-       "                        ...,\n",
-       "                        [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
-       "                          0.07759988,  0.03240566],\n",
-       "                        [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
-       "                         -0.031378  , -0.02404469],\n",
-       "                        [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
-       "                         -0.02130386,  0.04530597]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
-       "                          0.15062724,  0.12837149],\n",
-       "                        [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
-       "                          0.04776929, -0.08523804],\n",
-       "                        [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
-       "                         -0.09076596,  0.08992289],\n",
-       "                        ...,\n",
-       "                        [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
-       "                          0.10044491,  0.12639156],\n",
-       "                        [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
-       "                         -0.05817353, -0.03657222],\n",
-       "                        [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
-       "                          0.04052235, -0.05048911]],\n",
-       "                \n",
-       "                       [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
-       "                         -0.0087873 ,  0.00054167],\n",
-       "                        [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
-       "                         -0.03617225,  0.04379632],\n",
-       "                        [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
-       "                          0.00649468,  0.00245123],\n",
-       "                        ...,\n",
-       "                        [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
-       "                         -0.01775305,  0.01014595],\n",
-       "                        [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
-       "                         -0.01851957,  0.00425063],\n",
-       "                        [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
-       "                          0.00027551,  0.04116082]],\n",
-       "                \n",
-       "                       [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
-       "                          0.11864589,  0.10221381],\n",
-       "                        [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
-       "                         -0.05264059,  0.00311177],\n",
-       "                        [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
-       "                         -0.04377652,  0.03546317],\n",
-       "                        ...,\n",
-       "                        [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
-       "                          0.02304599,  0.05762106],\n",
-       "                        [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
-       "                         -0.05019034, -0.04568675],\n",
-       "                        [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
-       "                          0.04290378, -0.0746149 ]]], dtype=float32)>\n",
-       "                (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
-       "                         -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
-       "                        [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
-       "                          2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
-       "                        [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
-       "                          2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
-       "                        ...,\n",
-       "                        [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
-       "                         -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
-       "                        [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
-       "                          3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
-       "                        [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
-       "                         -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
-       "                \n",
-       "                       [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
-       "                         -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
-       "                        [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
-       "                         -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
-       "                        [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
-       "                          3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
-       "                        ...,\n",
-       "                        [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
-       "                          1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
-       "                        [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
-       "                         -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
-       "                        [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
-       "                         -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
-       "                \n",
-       "                       [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
-       "                         -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
-       "                        [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
-       "                          1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
-       "                        [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
-       "                          1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
-       "                        ...,\n",
-       "                        [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
-       "                         -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
-       "                        [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
-       "                          2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
-       "                        [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
-       "                         -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
-       "                         -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
-       "                        [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
-       "                          4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
-       "                        [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
-       "                          3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
-       "                        ...,\n",
-       "                        [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
-       "                          1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
-       "                        [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
-       "                         -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
-       "                        [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
-       "                          2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
-       "                \n",
-       "                       [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
-       "                          6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
-       "                        [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
-       "                         -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
-       "                        [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
-       "                         -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
-       "                        ...,\n",
-       "                        [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
-       "                         -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
-       "                        [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
-       "                          5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
-       "                        [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
-       "                          4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
-       "                \n",
-       "                       [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
-       "                         -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
-       "                        [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
-       "                         -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
-       "                        [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
-       "                          1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
-       "                        ...,\n",
-       "                        [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
-       "                          1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
-       "                        [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
-       "                         -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
-       "                        [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
-       "                         -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
-       "                          1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
-       "                        [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
-       "                         -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
-       "                        [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
-       "                         -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
-       "                        ...,\n",
-       "                        [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
-       "                         -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
-       "                        [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
-       "                         -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
-       "                        [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
-       "                          1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
-       "                \n",
-       "                       [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
-       "                         -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
-       "                        [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
-       "                          1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
-       "                        [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
-       "                         -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
-       "                        ...,\n",
-       "                        [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
-       "                          4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
-       "                        [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
-       "                         -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
-       "                        [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
-       "                         -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
-       "                \n",
-       "                       [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
-       "                         -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
-       "                        [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
-       "                          3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
-       "                        [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
-       "                          1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
-       "                        ...,\n",
-       "                        [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
-       "                          8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
-       "                        [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
-       "                          2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
-       "                        [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
-       "                          1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
-       "                          1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
-       "                        [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
-       "                         -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
-       "                        [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
-       "                         -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
-       "                        ...,\n",
-       "                        [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
-       "                          1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
-       "                        [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
-       "                          9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
-       "                        [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
-       "                          2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
-       "                \n",
-       "                       [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
-       "                         -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
-       "                        [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
-       "                         -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
-       "                        [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
-       "                         -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
-       "                        ...,\n",
-       "                        [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
-       "                         -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
-       "                        [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
-       "                          7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
-       "                        [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
-       "                          2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
-       "                \n",
-       "                       [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
-       "                         -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
-       "                        [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
-       "                          1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
-       "                        [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
-       "                          5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
-       "                        ...,\n",
-       "                        [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
-       "                          9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
-       "                        [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
-       "                         -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
-       "                        [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
-       "                          3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
-       "                (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
-       "                          1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
-       "                        [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
-       "                          1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
-       "                        [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
-       "                          1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
-       "                        ...,\n",
-       "                        [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
-       "                          2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
-       "                        [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
-       "                         -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
-       "                        [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
-       "                          3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
-       "                \n",
-       "                       [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
-       "                         -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
-       "                        [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
-       "                          4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
-       "                        [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
-       "                         -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
-       "                        ...,\n",
-       "                        [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
-       "                          1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
-       "                        [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
-       "                         -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
-       "                        [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
-       "                         -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
-       "                \n",
-       "                       [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
-       "                         -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
-       "                        [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
-       "                          1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
-       "                        [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
-       "                          8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
-       "                        ...,\n",
-       "                        [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
-       "                          3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
-       "                        [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
-       "                          1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
-       "                        [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
-       "                          5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
-       "                         -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
-       "                        [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
-       "                          3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
-       "                        [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
-       "                          5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
-       "                        ...,\n",
-       "                        [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
-       "                         -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
-       "                        [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
-       "                          1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
-       "                        [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
-       "                          5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
-       "                \n",
-       "                       [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
-       "                          2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
-       "                        [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
-       "                         -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
-       "                        [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
-       "                         -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
-       "                        ...,\n",
-       "                        [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
-       "                         -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
-       "                        [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
-       "                          1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
-       "                        [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
-       "                          2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
-       "                \n",
-       "                       [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
-       "                         -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
-       "                        [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
-       "                         -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
-       "                        [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
-       "                          1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
-       "                        ...,\n",
-       "                        [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
-       "                          2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
-       "                        [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
-       "                         -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
-       "                        [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
-       "                         -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
-       "                (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
-       "                         -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
-       "                        [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
-       "                          2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
-       "                        [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
-       "                          1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
-       "                        ...,\n",
-       "                        [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
-       "                         -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
-       "                        [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
-       "                         -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
-       "                        [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
-       "                         -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
-       "                \n",
-       "                       [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
-       "                         -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
-       "                        [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
-       "                          1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
-       "                        [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
-       "                          7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
-       "                        ...,\n",
-       "                        [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
-       "                         -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
-       "                        [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
-       "                         -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
-       "                        [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
-       "                         -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
-       "                \n",
-       "                       [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
-       "                         -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
-       "                        [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
-       "                          1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
-       "                        [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
-       "                          1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
-       "                        ...,\n",
-       "                        [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
-       "                         -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
-       "                        [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
-       "                         -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
-       "                        [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
-       "                         -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
-       "                         -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
-       "                        [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
-       "                          1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
-       "                        [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
-       "                          3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
-       "                        ...,\n",
-       "                        [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
-       "                         -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
-       "                        [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
-       "                         -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
-       "                        [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
-       "                          2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
-       "                \n",
-       "                       [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
-       "                          2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
-       "                        [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
-       "                         -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
-       "                        [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
-       "                         -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
-       "                        ...,\n",
-       "                        [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
-       "                          8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
-       "                        [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
-       "                          5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
-       "                        [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
-       "                          1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
-       "                \n",
-       "                       [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
-       "                         -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
-       "                        [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
-       "                         -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
-       "                        [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
-       "                         -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
-       "                        ...,\n",
-       "                        [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
-       "                         -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
-       "                        [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
-       "                         -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
-       "                        [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
-       "                         -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
-       "                         0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
-       "                         0.37070706,  0.35559788],\n",
-       "                       [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
-       "                         0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
-       "                         0.0776644 , -0.07216003],\n",
-       "                       [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
-       "                         0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
-       "                        -0.16261199,  0.16058037],\n",
-       "                       [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
-       "                        -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
-       "                        -0.20082442, -0.21696469],\n",
-       "                       [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
-       "                        -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
-       "                         0.24445428,  0.27668142],\n",
-       "                       [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
-       "                        -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
-       "                        -0.29824102, -0.31075856],\n",
-       "                       [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
-       "                        -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
-       "                        -0.38081092, -0.39247522],\n",
-       "                       [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
-       "                         0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
-       "                        -0.23054157, -0.22402786],\n",
-       "                       [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
-       "                         0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
-       "                         0.33728704, -0.35013184],\n",
-       "                       [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
-       "                        -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
-       "                         0.29340708,  0.2927634 ],\n",
-       "                       [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
-       "                         0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
-       "                        -0.35776407, -0.33932883],\n",
-       "                       [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
-       "                        -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
-       "                         0.3707558 , -0.3911879 ],\n",
-       "                       [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
-       "                        -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
-       "                         0.12306441,  0.10861646],\n",
-       "                       [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
-       "                         0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
-       "                         0.39667937,  0.38020003],\n",
-       "                       [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
-       "                        -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
-       "                        -0.29706052, -0.31455588],\n",
-       "                       [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
-       "                        -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
-       "                         0.10973554, -0.05313613]], dtype=float32)>\n",
-       "                (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "                (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
-       "                         0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
-       "                        -0.01393487, -0.01188555],\n",
-       "                       [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
-       "                         0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
-       "                        -0.00388369, -0.01727411],\n",
-       "                       [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
-       "                         0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
-       "                         0.12056144, -0.15448172],\n",
-       "                       [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
-       "                        -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
-       "                        -0.11767636, -0.10332035],\n",
-       "                       [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
-       "                        -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
-       "                         0.09375099,  0.09006778],\n",
-       "                       [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
-       "                        -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
-       "                        -0.07627007, -0.09407212],\n",
-       "                       [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
-       "                        -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
-       "                        -0.09510182, -0.07508499],\n",
-       "                       [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
-       "                         0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
-       "                        -0.11242524, -0.12828752],\n",
-       "                       [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
-       "                         0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
-       "                         0.1122688 , -0.0936246 ],\n",
-       "                       [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
-       "                        -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
-       "                         0.08842966,  0.07842822],\n",
-       "                       [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
-       "                         0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
-       "                        -0.11914786, -0.05327021],\n",
-       "                       [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
-       "                        -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
-       "                         0.12055498, -0.11824764],\n",
-       "                       [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
-       "                         0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
-       "                         0.11570179,  0.13300925],\n",
-       "                       [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
-       "                         0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
-       "                         0.14165434,  0.07234689],\n",
-       "                       [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
-       "                        -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
-       "                        -0.0326612 , -0.05191225],\n",
-       "                       [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
-       "                         0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
-       "                         0.03455094,  0.00630618]], dtype=float32)>\n",
-       "                (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
-       "                         -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
-       "                         -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
-       "                          6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
-       "                        [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
-       "                          4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
-       "                          6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
-       "                          9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
-       "                        [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
-       "                         -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
-       "                          4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
-       "                          7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
-       "                        [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
-       "                          2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
-       "                         -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
-       "                         -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
-       "                        [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
-       "                          1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
-       "                          7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
-       "                          1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
-       "                        [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
-       "                          2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
-       "                         -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
-       "                         -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
-       "                        [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
-       "                          3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
-       "                         -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
-       "                         -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
-       "                        [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
-       "                          2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
-       "                          4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
-       "                          4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
-       "                        [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
-       "                          4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
-       "                          1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
-       "                          1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
-       "                        [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
-       "                          3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
-       "                         -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
-       "                          5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
-       "                        [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
-       "                          7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
-       "                          1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
-       "                         -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
-       "                        [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
-       "                         -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
-       "                         -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
-       "                          7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
-       "                        [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
-       "                         -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
-       "                         -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
-       "                         -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
-       "                        [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
-       "                          4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
-       "                         -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
-       "                          2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
-       "                        [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
-       "                          1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
-       "                          1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
-       "                         -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
-       "                        [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
-       "                         -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
-       "                         -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
-       "                          1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
-       "                \n",
-       "                       [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
-       "                         -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
-       "                         -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
-       "                         -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
-       "                        [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
-       "                          1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
-       "                          5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
-       "                         -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
-       "                        [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
-       "                         -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
-       "                         -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
-       "                         -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
-       "                        [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
-       "                         -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
-       "                         -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
-       "                         -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
-       "                        [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
-       "                         -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
-       "                         -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
-       "                          1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
-       "                        [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
-       "                          7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
-       "                         -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
-       "                         -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
-       "                        [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
-       "                         -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
-       "                         -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
-       "                          1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
-       "                        [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
-       "                         -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
-       "                          1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
-       "                          2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
-       "                        [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
-       "                          4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
-       "                         -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
-       "                          1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
-       "                        [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
-       "                         -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
-       "                          9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
-       "                         -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
-       "                        [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
-       "                          2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
-       "                         -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
-       "                          2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
-       "                        [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
-       "                          1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
-       "                          1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
-       "                          1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
-       "                        [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
-       "                         -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
-       "                         -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
-       "                          1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
-       "                        [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
-       "                          1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
-       "                         -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
-       "                          5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
-       "                        [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
-       "                          1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
-       "                         -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
-       "                         -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
-       "                        [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
-       "                         -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
-       "                         -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
-       "                         -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (ff): TFXLNetFeedForward(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
-       "                         1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
-       "                         1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
-       "                         1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
-       "                         0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
-       "                         1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
-       "                         1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
-       "                         1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
-       "                         1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
-       "                         0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
-       "                         1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
-       "                         1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
-       "                         1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
-       "                         1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
-       "                         1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
-       "                         1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
-       "                         1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
-       "                         1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
-       "                         1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
-       "                         1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
-       "                         1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
-       "                         1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
-       "                         1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
-       "                         1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
-       "                         1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
-       "                         1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
-       "                         1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
-       "                         1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
-       "                         1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
-       "                         0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
-       "                         1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
-       "                         1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
-       "                         1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
-       "                         1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
-       "                         1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
-       "                         0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
-       "                         1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
-       "                         1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
-       "                         1.0334889 , 1.0734522 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
-       "                          0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
-       "                         -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
-       "                          0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
-       "                         -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
-       "                         -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
-       "                          0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
-       "                         -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
-       "                         -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
-       "                          0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
-       "                          0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
-       "                          0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
-       "                          0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
-       "                         -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
-       "                         -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
-       "                         -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
-       "                         -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
-       "                          0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
-       "                         -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
-       "                         -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
-       "                         -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
-       "                          0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
-       "                         -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
-       "                          0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
-       "                         -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
-       "                          0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
-       "                          0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
-       "                          0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
-       "                          0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
-       "                          0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
-       "                          0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
-       "                         -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
-       "                          0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
-       "                         -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
-       "                         -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
-       "                          0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
-       "                         -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
-       "                          0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
-       "                         -0.02164674,  0.01641086], dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_1): Dense(\n",
-       "                  768, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                  array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
-       "                          -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
-       "                         [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
-       "                          -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
-       "                         [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
-       "                          -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
-       "                         ...,\n",
-       "                         [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
-       "                          -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
-       "                         [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
-       "                          -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
-       "                         [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
-       "                          -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                  array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
-       "                          2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
-       "                         -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
-       "                          1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
-       "                          2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
-       "                          1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
-       "                          5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
-       "                          1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
-       "                          1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
-       "                          1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
-       "                          2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
-       "                          9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
-       "                          2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
-       "                         -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
-       "                         -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
-       "                          2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
-       "                          8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
-       "                         -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
-       "                          1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
-       "                          1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
-       "                         -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
-       "                         -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
-       "                          2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
-       "                          7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
-       "                          1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
-       "                         -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
-       "                          6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
-       "                          1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
-       "                          3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
-       "                         -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
-       "                         -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
-       "                         -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
-       "                          1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
-       "                         -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
-       "                         -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
-       "                          6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
-       "                          7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
-       "                          2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
-       "                          2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
-       "                          6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
-       "                          1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
-       "                         -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
-       "                          1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
-       "                          4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
-       "                         -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
-       "                          5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
-       "                          2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
-       "                          1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
-       "                         -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
-       "                         -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
-       "                          2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
-       "                          3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
-       "                         -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
-       "                          2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
-       "                          1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
-       "                          3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
-       "                          6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
-       "                         -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
-       "                          8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
-       "                          2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
-       "                          1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
-       "                          2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
-       "                          9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
-       "                          4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
-       "                          2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
-       "                         -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
-       "                         -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
-       "                         -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
-       "                          1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
-       "                          1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
-       "                         -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
-       "                         -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
-       "                          9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
-       "                         -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
-       "                         -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
-       "                          1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
-       "                          3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
-       "                         -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
-       "                         -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
-       "                          3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
-       "                          7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
-       "                          1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
-       "                          8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
-       "                          1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
-       "                         -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
-       "                         -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
-       "                          1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
-       "                          2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
-       "                          8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
-       "                          4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
-       "                          1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
-       "                          1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
-       "                         -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
-       "                         -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
-       "                          4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
-       "                          1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
-       "                          2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
-       "                          1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
-       "                         -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
-       "                         -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
-       "                         -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
-       "                          1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
-       "                         -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
-       "                          9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
-       "                          6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
-       "                         -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
-       "                          1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
-       "                          6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
-       "                          1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
-       "                         -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
-       "                          6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
-       "                         -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
-       "                          1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
-       "                         -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
-       "                          4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
-       "                         -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
-       "                          1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
-       "                          2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
-       "                          1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
-       "                          1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
-       "                          6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
-       "                         -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
-       "                          3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
-       "                         -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
-       "                          2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
-       "                         -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
-       "                          1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
-       "                          2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
-       "                         -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
-       "                          1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
-       "                          4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
-       "                          1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
-       "                          6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
-       "                          8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
-       "                          6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
-       "                         -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
-       "                          1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
-       "                          1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
-       "                         -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
-       "                         -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
-       "                          1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
-       "                          2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
-       "                         -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
-       "                         -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
-       "                          2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
-       "                          1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
-       "                          3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
-       "                         -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
-       "                          7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
-       "                          3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
-       "                          1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
-       "                          1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
-       "                          1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
-       "                          4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
-       "                         -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
-       "                          1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
-       "                          1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
-       "                         -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
-       "                         -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
-       "                          8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
-       "                          1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
-       "                          1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
-       "                         -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
-       "                          6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
-       "                         -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
-       "                          6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
-       "                         -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
-       "                         -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
-       "                         -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
-       "                          1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
-       "                          1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
-       "                          1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
-       "                          7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
-       "                          1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
-       "                         -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
-       "                         -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
-       "                          1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
-       "                         -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
-       "                          3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
-       "                         -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
-       "                          1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
-       "                          7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
-       "                         -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
-       "                         -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
-       "                          2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
-       "                         -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
-       "                          2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
-       "                          1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
-       "                         -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
-       "                          1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
-       "                         -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
-       "                          2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_2): Dense(\n",
-       "                  192, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                  array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
-       "                          -0.00204962,  0.01233771],\n",
-       "                         [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
-       "                           0.01483128,  0.02967459],\n",
-       "                         [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
-       "                           0.01299867, -0.00927783],\n",
-       "                         ...,\n",
-       "                         [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
-       "                           0.00615161,  0.00803701],\n",
-       "                         [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
-       "                          -0.00725265, -0.00729213],\n",
-       "                         [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
-       "                          -0.01250057, -0.02561413]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
-       "                          1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
-       "                         -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
-       "                          1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
-       "                         -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
-       "                         -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
-       "                          5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
-       "                         -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
-       "                          8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
-       "                         -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
-       "                         -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
-       "                          2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
-       "                         -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
-       "                          7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
-       "                         -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
-       "                          7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
-       "                          8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
-       "                         -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
-       "                         -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
-       "                         -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
-       "                         -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
-       "                          2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
-       "                          1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
-       "                         -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
-       "                         -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
-       "                         -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
-       "                         -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
-       "                          7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
-       "                         -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
-       "                         -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
-       "                          5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
-       "                         -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
-       "                         -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
-       "                         -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
-       "                         -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
-       "                          6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
-       "                         -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
-       "                          1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
-       "                         -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
-       "                         -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
-       "                          7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
-       "                          1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
-       "                          9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
-       "                          2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
-       "                         -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
-       "                         -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
-       "                          5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
-       "                          1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (1): TFXLNetLayer(\n",
-       "              (rel_attn): TFXLNetRelativeAttention(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
-       "                         1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
-       "                         1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
-       "                         0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
-       "                         1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
-       "                         1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
-       "                         0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
-       "                         1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
-       "                         1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
-       "                         0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
-       "                         1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
-       "                         0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
-       "                         1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
-       "                         1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
-       "                         1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
-       "                         1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
-       "                         1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
-       "                         1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
-       "                         1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
-       "                         1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
-       "                         1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
-       "                         1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
-       "                         1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
-       "                         1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
-       "                         0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
-       "                         1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
-       "                         0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
-       "                         1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
-       "                         0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
-       "                         0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
-       "                         1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
-       "                         1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
-       "                         0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
-       "                         1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
-       "                         1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
-       "                         0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
-       "                         1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
-       "                         1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
-       "                         1.0128983 , 1.0420789 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
-       "                         -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
-       "                          8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
-       "                          2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
-       "                         -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
-       "                         -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
-       "                         -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
-       "                         -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
-       "                         -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
-       "                          2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
-       "                          3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
-       "                          3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
-       "                          3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
-       "                         -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
-       "                         -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
-       "                          1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
-       "                         -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
-       "                         -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
-       "                         -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
-       "                         -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
-       "                         -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
-       "                          1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
-       "                          1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
-       "                         -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
-       "                         -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
-       "                         -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
-       "                          2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
-       "                         -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
-       "                         -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
-       "                         -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
-       "                          1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
-       "                          1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
-       "                         -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
-       "                         -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
-       "                         -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
-       "                          1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
-       "                         -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
-       "                         -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
-       "                         -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
-       "                          7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
-       "                         -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
-       "                          1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
-       "                          3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
-       "                          3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
-       "                         -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
-       "                         -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
-       "                         -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
-       "                          8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
-       "                          7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
-       "                        [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
-       "                          1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
-       "                        [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
-       "                         -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
-       "                        ...,\n",
-       "                        [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
-       "                          3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
-       "                        [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
-       "                          1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
-       "                        [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
-       "                          9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
-       "                \n",
-       "                       [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
-       "                         -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
-       "                        [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
-       "                         -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
-       "                        [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
-       "                          3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
-       "                        ...,\n",
-       "                        [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
-       "                          7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
-       "                        [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
-       "                         -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
-       "                        [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
-       "                         -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
-       "                \n",
-       "                       [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
-       "                         -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
-       "                        [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
-       "                         -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
-       "                        [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
-       "                          6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
-       "                        ...,\n",
-       "                        [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
-       "                         -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
-       "                        [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
-       "                         -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
-       "                        [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
-       "                         -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
-       "                         -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
-       "                        [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
-       "                         -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
-       "                        [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
-       "                         -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
-       "                        ...,\n",
-       "                        [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
-       "                          9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
-       "                        [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
-       "                         -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
-       "                        [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
-       "                         -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
-       "                \n",
-       "                       [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
-       "                          1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
-       "                        [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
-       "                         -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
-       "                        [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
-       "                         -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
-       "                        ...,\n",
-       "                        [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
-       "                         -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
-       "                        [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
-       "                         -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
-       "                        [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
-       "                          7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
-       "                \n",
-       "                       [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
-       "                         -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
-       "                        [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
-       "                         -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
-       "                        [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
-       "                          1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
-       "                        ...,\n",
-       "                        [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
-       "                          3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
-       "                        [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
-       "                          5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
-       "                        [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
-       "                          2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
-       "                      dtype=float32)>\n",
-       "                (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
-       "                         -0.10876201,  0.0518376 ],\n",
-       "                        [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
-       "                          0.01024422, -0.0047144 ],\n",
-       "                        [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
-       "                          0.01880827,  0.00846547],\n",
-       "                        ...,\n",
-       "                        [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
-       "                          0.04121248,  0.00622395],\n",
-       "                        [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
-       "                          0.00683424, -0.01068041],\n",
-       "                        [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
-       "                         -0.01545478,  0.00205119]],\n",
-       "                \n",
-       "                       [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
-       "                         -0.12276172, -0.00676864],\n",
-       "                        [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
-       "                          0.01007075,  0.03550502],\n",
-       "                        [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
-       "                          0.00668171,  0.04424441],\n",
-       "                        ...,\n",
-       "                        [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
-       "                         -0.02856454,  0.03050387],\n",
-       "                        [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
-       "                         -0.02215741,  0.01845626],\n",
-       "                        [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
-       "                          0.03298638,  0.01737015]],\n",
-       "                \n",
-       "                       [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
-       "                          0.00755295,  0.01676364],\n",
-       "                        [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
-       "                         -0.03828989, -0.06387301],\n",
-       "                        [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
-       "                          0.04120573, -0.04320288],\n",
-       "                        ...,\n",
-       "                        [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
-       "                          0.039828  ,  0.01575541],\n",
-       "                        [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
-       "                         -0.00391845, -0.0216135 ],\n",
-       "                        [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
-       "                         -0.05756253,  0.01769848]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
-       "                         -0.10177041, -0.03314629],\n",
-       "                        [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
-       "                          0.0264037 ,  0.00855082],\n",
-       "                        [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
-       "                         -0.08611775,  0.08852727],\n",
-       "                        ...,\n",
-       "                        [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
-       "                         -0.05256388,  0.00049124],\n",
-       "                        [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
-       "                         -0.010408  , -0.02198589],\n",
-       "                        [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
-       "                          0.00311856,  0.02825575]],\n",
-       "                \n",
-       "                       [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
-       "                          0.09931507,  0.01606977],\n",
-       "                        [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
-       "                         -0.00323939,  0.06076182],\n",
-       "                        [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
-       "                         -0.01210698, -0.05587041],\n",
-       "                        ...,\n",
-       "                        [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
-       "                         -0.00253815, -0.04528459],\n",
-       "                        [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
-       "                          0.01135639, -0.00226221],\n",
-       "                        [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
-       "                         -0.000718  , -0.0467924 ]],\n",
-       "                \n",
-       "                       [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
-       "                         -0.07196326,  0.02667288],\n",
-       "                        [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
-       "                          0.03794343, -0.01332447],\n",
-       "                        [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
-       "                          0.0457263 ,  0.05769112],\n",
-       "                        ...,\n",
-       "                        [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
-       "                          0.00275381,  0.01149508],\n",
-       "                        [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
-       "                          0.05586889, -0.01648431],\n",
-       "                        [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
-       "                         -0.06611379,  0.05732429]]], dtype=float32)>\n",
-       "                (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
-       "                          1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
-       "                        [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
-       "                          1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
-       "                        [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
-       "                         -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
-       "                        ...,\n",
-       "                        [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
-       "                          2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
-       "                        [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
-       "                          4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
-       "                        [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
-       "                         -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
-       "                \n",
-       "                       [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
-       "                         -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
-       "                        [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
-       "                         -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
-       "                        [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
-       "                         -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
-       "                        ...,\n",
-       "                        [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
-       "                          6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
-       "                        [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
-       "                         -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
-       "                        [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
-       "                         -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
-       "                \n",
-       "                       [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
-       "                         -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
-       "                        [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
-       "                          1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
-       "                        [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
-       "                         -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
-       "                        ...,\n",
-       "                        [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
-       "                          5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
-       "                        [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
-       "                          1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
-       "                        [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
-       "                          1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
-       "                          2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
-       "                        [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
-       "                          3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
-       "                        [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
-       "                          4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
-       "                        ...,\n",
-       "                        [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
-       "                          8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
-       "                        [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
-       "                          2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
-       "                        [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
-       "                          2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
-       "                \n",
-       "                       [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
-       "                         -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
-       "                        [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
-       "                          2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
-       "                        [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
-       "                          3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
-       "                        ...,\n",
-       "                        [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
-       "                          2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
-       "                        [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
-       "                          7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
-       "                        [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
-       "                          1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
-       "                \n",
-       "                       [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
-       "                          2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
-       "                        [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
-       "                          8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
-       "                        [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
-       "                          1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
-       "                        ...,\n",
-       "                        [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
-       "                         -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
-       "                        [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
-       "                         -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
-       "                        [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
-       "                          2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
-       "                         -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
-       "                        [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
-       "                         -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
-       "                        [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
-       "                          3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
-       "                        ...,\n",
-       "                        [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
-       "                          3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
-       "                        [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
-       "                          3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
-       "                        [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
-       "                          3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
-       "                \n",
-       "                       [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
-       "                          3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
-       "                        [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
-       "                          1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
-       "                        [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
-       "                         -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
-       "                        ...,\n",
-       "                        [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
-       "                         -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
-       "                        [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
-       "                          3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
-       "                        [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
-       "                          1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
-       "                \n",
-       "                       [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
-       "                         -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
-       "                        [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
-       "                          1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
-       "                        [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
-       "                         -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
-       "                        ...,\n",
-       "                        [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
-       "                         -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
-       "                        [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
-       "                          1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
-       "                        [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
-       "                          6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
-       "                          1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
-       "                        [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
-       "                          4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
-       "                        [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
-       "                         -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
-       "                        ...,\n",
-       "                        [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
-       "                          3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
-       "                        [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
-       "                          9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
-       "                        [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
-       "                          6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
-       "                \n",
-       "                       [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
-       "                         -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
-       "                        [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
-       "                          8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
-       "                        [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
-       "                          1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
-       "                        ...,\n",
-       "                        [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
-       "                         -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
-       "                        [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
-       "                         -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
-       "                        [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
-       "                          2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
-       "                \n",
-       "                       [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
-       "                         -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
-       "                        [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
-       "                          4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
-       "                        [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
-       "                         -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
-       "                        ...,\n",
-       "                        [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
-       "                         -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
-       "                        [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
-       "                          3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
-       "                        [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
-       "                          5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
-       "                      dtype=float32)>\n",
-       "                (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
-       "                          2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
-       "                        [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
-       "                          1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
-       "                        [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
-       "                         -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
-       "                        ...,\n",
-       "                        [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
-       "                          2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
-       "                        [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
-       "                          2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
-       "                        [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
-       "                          1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
-       "                \n",
-       "                       [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
-       "                          1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
-       "                        [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
-       "                          1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
-       "                        [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
-       "                         -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
-       "                        ...,\n",
-       "                        [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
-       "                          1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
-       "                        [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
-       "                          1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
-       "                        [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
-       "                          1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
-       "                \n",
-       "                       [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
-       "                          1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
-       "                        [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
-       "                          1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
-       "                        [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
-       "                         -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
-       "                        ...,\n",
-       "                        [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
-       "                          1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
-       "                        [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
-       "                          1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
-       "                        [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
-       "                          1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
-       "                          5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
-       "                        [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
-       "                          1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
-       "                        [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
-       "                          1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
-       "                        ...,\n",
-       "                        [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
-       "                          4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
-       "                        [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
-       "                         -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
-       "                        [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
-       "                          1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
-       "                \n",
-       "                       [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
-       "                         -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
-       "                        [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
-       "                          1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
-       "                        [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
-       "                         -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
-       "                        ...,\n",
-       "                        [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
-       "                         -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
-       "                        [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
-       "                         -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
-       "                        [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
-       "                          1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
-       "                \n",
-       "                       [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
-       "                          1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
-       "                        [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
-       "                          3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
-       "                        [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
-       "                         -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
-       "                        ...,\n",
-       "                        [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
-       "                          1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
-       "                        [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
-       "                          2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
-       "                        [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
-       "                          8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
-       "                      dtype=float32)>\n",
-       "                (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
-       "                        -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
-       "                        -0.08941454,  0.37458393],\n",
-       "                       [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
-       "                         0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
-       "                        -0.32297572,  0.3089489 ],\n",
-       "                       [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
-       "                        -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
-       "                        -0.31591862, -0.29939887],\n",
-       "                       [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
-       "                        -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
-       "                         0.2792229 ,  0.26833603],\n",
-       "                       [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
-       "                         0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
-       "                        -0.31171426, -0.25726327],\n",
-       "                       [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
-       "                         0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
-       "                         0.30099693,  0.2978344 ],\n",
-       "                       [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
-       "                         0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
-       "                         0.36704957, -0.07152183],\n",
-       "                       [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
-       "                         0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
-       "                        -0.24604012, -0.25978062],\n",
-       "                       [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
-       "                         0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
-       "                        -0.35605282, -0.34466416],\n",
-       "                       [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
-       "                         0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
-       "                        -0.36399728, -0.30652383],\n",
-       "                       [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
-       "                        -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
-       "                        -0.26509777,  0.27066582],\n",
-       "                       [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
-       "                        -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
-       "                         0.3016155 , -0.2862795 ],\n",
-       "                       [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
-       "                        -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
-       "                         0.31764168, -0.3219256 ],\n",
-       "                       [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
-       "                        -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
-       "                        -0.38232875, -0.37825328],\n",
-       "                       [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
-       "                        -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
-       "                        -0.35072395,  0.3597266 ],\n",
-       "                       [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
-       "                        -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
-       "                         0.2981984 , -0.3554742 ]], dtype=float32)>\n",
-       "                (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "                (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
-       "                        -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
-       "                        -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
-       "                         1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
-       "                       [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
-       "                        -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
-       "                         1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
-       "                         6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
-       "                       [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
-       "                         1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
-       "                         1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
-       "                        -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
-       "                       [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
-       "                        -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
-       "                        -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
-       "                        -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
-       "                       [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
-       "                        -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
-       "                         2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
-       "                        -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
-       "                       [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
-       "                         8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
-       "                         8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
-       "                         1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
-       "                       [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
-       "                        -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
-       "                         8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
-       "                        -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
-       "                       [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
-       "                         5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
-       "                        -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
-       "                         7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
-       "                       [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
-       "                         1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
-       "                         7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
-       "                         1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
-       "                       [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
-       "                        -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
-       "                         1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
-       "                         2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
-       "                       [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
-       "                        -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
-       "                        -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
-       "                         7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
-       "                       [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
-       "                        -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
-       "                        -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
-       "                        -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
-       "                       [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
-       "                         1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
-       "                        -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
-       "                         8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
-       "                       [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
-       "                         1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
-       "                        -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
-       "                         1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
-       "                       [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
-       "                        -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
-       "                         1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
-       "                         1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
-       "                       [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
-       "                         1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
-       "                        -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
-       "                         1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
-       "                (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
-       "                          1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
-       "                         -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
-       "                         -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
-       "                        [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
-       "                          9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
-       "                          6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
-       "                         -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
-       "                        [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
-       "                         -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
-       "                          6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
-       "                          2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
-       "                        [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
-       "                         -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
-       "                         -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
-       "                         -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
-       "                        [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
-       "                          6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
-       "                          3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
-       "                          8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
-       "                        [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
-       "                          1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
-       "                         -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
-       "                          1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
-       "                        [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
-       "                         -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
-       "                         -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
-       "                          5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
-       "                        [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
-       "                          1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
-       "                         -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
-       "                          1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
-       "                        [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
-       "                          2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
-       "                         -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
-       "                          2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
-       "                        [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
-       "                          8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
-       "                          4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
-       "                          1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
-       "                        [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
-       "                          1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
-       "                          8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
-       "                          9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
-       "                        [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
-       "                          5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
-       "                         -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
-       "                          1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
-       "                        [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
-       "                          6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
-       "                          1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
-       "                         -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
-       "                        [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
-       "                          1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
-       "                         -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
-       "                          1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
-       "                        [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
-       "                          8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
-       "                          1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
-       "                          7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
-       "                        [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
-       "                         -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
-       "                         -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
-       "                         -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
-       "                \n",
-       "                       [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
-       "                          5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
-       "                         -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
-       "                         -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
-       "                        [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
-       "                          6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
-       "                         -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
-       "                         -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
-       "                        [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
-       "                         -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
-       "                         -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
-       "                         -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
-       "                        [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
-       "                         -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
-       "                          2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
-       "                         -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
-       "                        [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
-       "                         -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
-       "                          5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
-       "                          6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
-       "                        [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
-       "                         -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
-       "                         -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
-       "                          7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
-       "                        [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
-       "                          5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
-       "                          8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
-       "                          3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
-       "                        [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
-       "                          3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
-       "                          5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
-       "                         -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
-       "                        [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
-       "                         -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
-       "                          3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
-       "                         -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
-       "                        [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
-       "                          1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
-       "                          5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
-       "                          1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
-       "                        [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
-       "                          1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
-       "                         -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
-       "                         -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
-       "                        [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
-       "                          2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
-       "                          8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
-       "                         -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
-       "                        [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
-       "                          4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
-       "                         -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
-       "                         -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
-       "                        [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
-       "                         -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
-       "                          8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
-       "                         -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
-       "                        [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
-       "                         -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
-       "                         -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
-       "                         -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
-       "                        [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
-       "                         -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
-       "                         -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
-       "                         -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (ff): TFXLNetFeedForward(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
-       "                         1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
-       "                         1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
-       "                         0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
-       "                         1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
-       "                         0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
-       "                         0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
-       "                         1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
-       "                         1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
-       "                         0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
-       "                         1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
-       "                         1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
-       "                         1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
-       "                         1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
-       "                         1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
-       "                         1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
-       "                         1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
-       "                         1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
-       "                         1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
-       "                         1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
-       "                         1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
-       "                         1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
-       "                         1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
-       "                         1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
-       "                         0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
-       "                         1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
-       "                         0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
-       "                         1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
-       "                         0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
-       "                         0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
-       "                         1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
-       "                         1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
-       "                         0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
-       "                         1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
-       "                         1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
-       "                         0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
-       "                         1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
-       "                         1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
-       "                         1.0037141 , 1.0396017 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
-       "                         -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
-       "                          1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
-       "                          2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
-       "                         -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
-       "                         -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
-       "                         -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
-       "                         -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
-       "                         -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
-       "                          3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
-       "                          3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
-       "                          3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
-       "                          2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
-       "                         -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
-       "                         -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
-       "                          1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
-       "                          2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
-       "                         -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
-       "                         -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
-       "                         -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
-       "                         -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
-       "                          1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
-       "                          1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
-       "                         -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
-       "                         -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
-       "                         -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
-       "                          2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
-       "                          2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
-       "                         -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
-       "                         -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
-       "                         -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
-       "                          2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
-       "                         -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
-       "                         -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
-       "                         -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
-       "                          1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
-       "                         -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
-       "                         -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
-       "                         -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
-       "                          7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
-       "                          5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
-       "                          2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
-       "                          3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
-       "                          4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
-       "                         -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
-       "                         -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
-       "                         -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
-       "                          1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_1): Dense(\n",
-       "                  768, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                  array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
-       "                          -0.01548608,  0.01052339],\n",
-       "                         [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
-       "                          -0.00281928, -0.00167585],\n",
-       "                         [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
-       "                          -0.03134314, -0.02594296],\n",
-       "                         ...,\n",
-       "                         [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
-       "                           0.04625429, -0.03096718],\n",
-       "                         [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
-       "                          -0.01003346, -0.00525536],\n",
-       "                         [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
-       "                          -0.01304786, -0.035545  ]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                  array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
-       "                         -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
-       "                          5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
-       "                         -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
-       "                         -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
-       "                         -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
-       "                          9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
-       "                         -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
-       "                          4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
-       "                         -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
-       "                          1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
-       "                         -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
-       "                         -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
-       "                         -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
-       "                         -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
-       "                         -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
-       "                         -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
-       "                         -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
-       "                         -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
-       "                         -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
-       "                          1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
-       "                         -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
-       "                          6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
-       "                          1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
-       "                         -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
-       "                          4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
-       "                         -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
-       "                         -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
-       "                         -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
-       "                         -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
-       "                         -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
-       "                          2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
-       "                         -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
-       "                         -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
-       "                         -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
-       "                         -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
-       "                         -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
-       "                         -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
-       "                         -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
-       "                         -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
-       "                         -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
-       "                          1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
-       "                         -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
-       "                         -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
-       "                         -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
-       "                         -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
-       "                          3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
-       "                         -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
-       "                         -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
-       "                          1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
-       "                         -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
-       "                          1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
-       "                         -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
-       "                         -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
-       "                         -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
-       "                         -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
-       "                         -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
-       "                          5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
-       "                         -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
-       "                         -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
-       "                          1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
-       "                         -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
-       "                         -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
-       "                          5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
-       "                         -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
-       "                         -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
-       "                          1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
-       "                         -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
-       "                         -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
-       "                         -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
-       "                          4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
-       "                         -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
-       "                          6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
-       "                         -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
-       "                         -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
-       "                         -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
-       "                         -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
-       "                         -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
-       "                          2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
-       "                          1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
-       "                          1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
-       "                          2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
-       "                         -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
-       "                          1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
-       "                          1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
-       "                          1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
-       "                         -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
-       "                          3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
-       "                         -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
-       "                         -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
-       "                          3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
-       "                         -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
-       "                         -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
-       "                          7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
-       "                         -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
-       "                          9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
-       "                         -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
-       "                         -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
-       "                         -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
-       "                         -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
-       "                         -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
-       "                         -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
-       "                          1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
-       "                         -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
-       "                         -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
-       "                         -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
-       "                          1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
-       "                         -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
-       "                         -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
-       "                         -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
-       "                         -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
-       "                         -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
-       "                         -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
-       "                          1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
-       "                          7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
-       "                          9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
-       "                          1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
-       "                         -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
-       "                         -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
-       "                          6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
-       "                          1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
-       "                          8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
-       "                         -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
-       "                         -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
-       "                         -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
-       "                          1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
-       "                         -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
-       "                         -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
-       "                          1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
-       "                         -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
-       "                          2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
-       "                         -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
-       "                         -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
-       "                          5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
-       "                          9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
-       "                         -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
-       "                         -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
-       "                         -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
-       "                          1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
-       "                         -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
-       "                          2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
-       "                          2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
-       "                         -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
-       "                         -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
-       "                          9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
-       "                         -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
-       "                          2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
-       "                         -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
-       "                         -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
-       "                         -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
-       "                         -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
-       "                         -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
-       "                          4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
-       "                          1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
-       "                         -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
-       "                         -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
-       "                          5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
-       "                          2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
-       "                         -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
-       "                          9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
-       "                          1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
-       "                         -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
-       "                          5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
-       "                          1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
-       "                         -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
-       "                          6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
-       "                         -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
-       "                          2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
-       "                         -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
-       "                          5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
-       "                         -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
-       "                         -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
-       "                          1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
-       "                          8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
-       "                         -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
-       "                         -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
-       "                         -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
-       "                         -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
-       "                          9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
-       "                         -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
-       "                         -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
-       "                         -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
-       "                         -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
-       "                         -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
-       "                         -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
-       "                          3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
-       "                         -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
-       "                         -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
-       "                         -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
-       "                          1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
-       "                          5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
-       "                         -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_2): Dense(\n",
-       "                  192, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                  array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
-       "                           0.02154048,  0.01009107],\n",
-       "                         [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
-       "                           0.02311078, -0.03246025],\n",
-       "                         [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
-       "                           0.00015564,  0.01200298],\n",
-       "                         ...,\n",
-       "                         [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
-       "                          -0.00044155, -0.00768675],\n",
-       "                         [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
-       "                           0.00462436,  0.00114423],\n",
-       "                         [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
-       "                           0.0192393 , -0.00191616]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
-       "                          0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
-       "                         -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
-       "                          0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
-       "                         -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
-       "                          0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
-       "                         -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
-       "                          0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
-       "                         -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
-       "                          0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
-       "                          0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
-       "                          0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
-       "                          0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
-       "                         -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
-       "                         -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
-       "                         -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
-       "                          0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
-       "                          0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
-       "                         -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
-       "                         -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
-       "                         -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
-       "                          0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
-       "                         -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
-       "                         -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
-       "                         -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
-       "                          0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
-       "                          0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
-       "                          0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
-       "                          0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
-       "                          0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
-       "                         -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
-       "                          0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
-       "                          0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
-       "                          0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
-       "                         -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
-       "                         -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
-       "                         -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
-       "                          0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
-       "                         -0.01684757, -0.00175023], dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (2): TFXLNetLayer(\n",
-       "              (rel_attn): TFXLNetRelativeAttention(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
-       "                         1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
-       "                         1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
-       "                         1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
-       "                         1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
-       "                         1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
-       "                         1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
-       "                         1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
-       "                         1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
-       "                         1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
-       "                         1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
-       "                         1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
-       "                         1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
-       "                         0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
-       "                         1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
-       "                         1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
-       "                         1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
-       "                         1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
-       "                         1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
-       "                         1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
-       "                         1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
-       "                         0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
-       "                         1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
-       "                         1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
-       "                         0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
-       "                         1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
-       "                         1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
-       "                         1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
-       "                         1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
-       "                         1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
-       "                         1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
-       "                         1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
-       "                         1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
-       "                         1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
-       "                         1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
-       "                         0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
-       "                         1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
-       "                         1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
-       "                         1.0048147 , 1.0276642 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
-       "                         -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
-       "                          3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
-       "                          6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
-       "                          6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
-       "                          7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
-       "                         -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
-       "                         -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
-       "                         -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
-       "                         -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
-       "                          1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
-       "                          9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
-       "                          3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
-       "                          9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
-       "                         -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
-       "                          1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
-       "                         -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
-       "                          5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
-       "                         -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
-       "                         -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
-       "                         -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
-       "                         -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
-       "                          8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
-       "                         -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
-       "                         -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
-       "                         -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
-       "                          1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
-       "                         -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
-       "                          8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
-       "                         -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
-       "                          3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
-       "                          2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
-       "                         -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
-       "                         -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
-       "                         -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
-       "                          2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
-       "                         -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
-       "                         -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
-       "                         -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
-       "                          9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
-       "                          7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
-       "                          6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
-       "                          1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
-       "                          9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
-       "                         -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
-       "                         -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
-       "                          2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
-       "                          1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
-       "                         -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
-       "                        [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
-       "                         -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
-       "                        [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
-       "                          1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
-       "                        ...,\n",
-       "                        [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
-       "                          2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
-       "                        [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
-       "                          9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
-       "                        [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
-       "                          1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
-       "                \n",
-       "                       [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
-       "                         -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
-       "                        [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
-       "                         -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
-       "                        [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
-       "                          3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
-       "                        ...,\n",
-       "                        [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
-       "                          3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
-       "                        [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
-       "                         -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
-       "                        [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
-       "                          1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
-       "                \n",
-       "                       [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
-       "                          8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
-       "                        [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
-       "                          3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
-       "                        [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
-       "                          5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
-       "                        ...,\n",
-       "                        [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
-       "                          8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
-       "                        [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
-       "                          1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
-       "                        [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
-       "                          2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
-       "                         -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
-       "                        [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
-       "                         -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
-       "                        [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
-       "                         -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
-       "                        ...,\n",
-       "                        [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
-       "                          3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
-       "                        [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
-       "                         -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
-       "                        [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
-       "                          1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
-       "                \n",
-       "                       [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
-       "                         -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
-       "                        [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
-       "                         -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
-       "                        [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
-       "                         -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
-       "                        ...,\n",
-       "                        [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
-       "                         -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
-       "                        [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
-       "                          1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
-       "                        [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
-       "                         -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
-       "                \n",
-       "                       [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
-       "                         -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
-       "                        [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
-       "                         -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
-       "                        [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
-       "                          7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
-       "                        ...,\n",
-       "                        [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
-       "                          8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
-       "                        [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
-       "                         -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
-       "                        [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
-       "                         -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
-       "                          0.00220658, -0.01070606],\n",
-       "                        [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
-       "                         -0.03522046,  0.00336731],\n",
-       "                        [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
-       "                         -0.02712567, -0.00692069],\n",
-       "                        ...,\n",
-       "                        [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
-       "                          0.00351168, -0.01507777],\n",
-       "                        [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
-       "                          0.01558526, -0.00548268],\n",
-       "                        [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
-       "                         -0.01862272,  0.00915155]],\n",
-       "                \n",
-       "                       [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
-       "                         -0.05951536, -0.01053701],\n",
-       "                        [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
-       "                          0.04455427, -0.03069338],\n",
-       "                        [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
-       "                          0.017482  ,  0.02697489],\n",
-       "                        ...,\n",
-       "                        [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
-       "                          0.04024338, -0.0384163 ],\n",
-       "                        [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
-       "                          0.00090393,  0.01484353],\n",
-       "                        [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
-       "                         -0.01938148, -0.00959876]],\n",
-       "                \n",
-       "                       [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
-       "                          0.01978015,  0.00669768],\n",
-       "                        [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
-       "                         -0.02788975,  0.04276541],\n",
-       "                        [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
-       "                         -0.0080095 , -0.04260714],\n",
-       "                        ...,\n",
-       "                        [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
-       "                          0.02074965, -0.03320842],\n",
-       "                        [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
-       "                          0.00745646, -0.01764916],\n",
-       "                        [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
-       "                          0.02713079, -0.02098218]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
-       "                          0.00773418,  0.0028765 ],\n",
-       "                        [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
-       "                          0.01953993, -0.00055485],\n",
-       "                        [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
-       "                          0.00128055, -0.01244337],\n",
-       "                        ...,\n",
-       "                        [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
-       "                         -0.03074895,  0.02474623],\n",
-       "                        [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
-       "                          0.01141954, -0.00754204],\n",
-       "                        [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
-       "                         -0.02091517,  0.02028517]],\n",
-       "                \n",
-       "                       [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
-       "                          0.00690144, -0.0624721 ],\n",
-       "                        [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
-       "                          0.00672527,  0.04417474],\n",
-       "                        [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
-       "                          0.01875504, -0.01086921],\n",
-       "                        ...,\n",
-       "                        [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
-       "                          0.02842108, -0.02001433],\n",
-       "                        [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
-       "                         -0.03791892,  0.05297501],\n",
-       "                        [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
-       "                         -0.0426075 ,  0.04186616]],\n",
-       "                \n",
-       "                       [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
-       "                         -0.05163334, -0.02703283],\n",
-       "                        [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
-       "                          0.03730771, -0.01465937],\n",
-       "                        [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
-       "                          0.00054794,  0.0272242 ],\n",
-       "                        ...,\n",
-       "                        [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
-       "                          0.0433554 , -0.05423561],\n",
-       "                        [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
-       "                          0.01977414, -0.02690084],\n",
-       "                        [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
-       "                          0.00156149, -0.00067797]]], dtype=float32)>\n",
-       "                (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
-       "                          0.0309326 , -0.01376203],\n",
-       "                        [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
-       "                         -0.00639856,  0.01343099],\n",
-       "                        [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
-       "                         -0.02740676,  0.00521749],\n",
-       "                        ...,\n",
-       "                        [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
-       "                         -0.02067197,  0.02215986],\n",
-       "                        [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
-       "                          0.01457549, -0.02071035],\n",
-       "                        [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
-       "                         -0.03342215, -0.00695839]],\n",
-       "                \n",
-       "                       [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
-       "                         -0.01388015, -0.05727502],\n",
-       "                        [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
-       "                          0.02744391, -0.00661899],\n",
-       "                        [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
-       "                          0.00024902,  0.00248078],\n",
-       "                        ...,\n",
-       "                        [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
-       "                         -0.03614037, -0.00738423],\n",
-       "                        [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
-       "                          0.01113886,  0.02501536],\n",
-       "                        [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
-       "                         -0.00661571, -0.03333431]],\n",
-       "                \n",
-       "                       [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
-       "                         -0.00927628,  0.00616596],\n",
-       "                        [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
-       "                          0.00871206, -0.05778804],\n",
-       "                        [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
-       "                          0.02836852, -0.04284712],\n",
-       "                        ...,\n",
-       "                        [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
-       "                         -0.01772935,  0.00616858],\n",
-       "                        [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
-       "                         -0.01613746, -0.03987672],\n",
-       "                        [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
-       "                          0.01645808, -0.03744602]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
-       "                          0.05795961, -0.02054776],\n",
-       "                        [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
-       "                          0.03733749,  0.00026225],\n",
-       "                        [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
-       "                         -0.00190235, -0.00399782],\n",
-       "                        ...,\n",
-       "                        [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
-       "                          0.03480022, -0.01587555],\n",
-       "                        [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
-       "                         -0.02998798, -0.03450729],\n",
-       "                        [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
-       "                          0.00860727,  0.02687717]],\n",
-       "                \n",
-       "                       [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
-       "                          0.04437737, -0.03391603],\n",
-       "                        [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
-       "                          0.03200765,  0.06134365],\n",
-       "                        [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
-       "                         -0.01228396,  0.01346244],\n",
-       "                        ...,\n",
-       "                        [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
-       "                          0.05700811,  0.00101427],\n",
-       "                        [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
-       "                          0.02314062,  0.01037679],\n",
-       "                        [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
-       "                          0.01851269, -0.00904128]],\n",
-       "                \n",
-       "                       [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
-       "                         -0.02365098,  0.01838909],\n",
-       "                        [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
-       "                          0.0036391 , -0.01013733],\n",
-       "                        [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
-       "                         -0.0331871 ,  0.01334788],\n",
-       "                        ...,\n",
-       "                        [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
-       "                         -0.02920299, -0.00677245],\n",
-       "                        [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
-       "                         -0.00327538,  0.00982734],\n",
-       "                        [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
-       "                          0.02140583, -0.05328723]]], dtype=float32)>\n",
-       "                (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
-       "                         -0.03472243,  0.01304346],\n",
-       "                        [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
-       "                          0.01706363,  0.0169379 ],\n",
-       "                        [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
-       "                         -0.03150146,  0.02959211],\n",
-       "                        ...,\n",
-       "                        [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
-       "                         -0.0315103 ,  0.04004923],\n",
-       "                        [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
-       "                          0.00454007,  0.01773539],\n",
-       "                        [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
-       "                         -0.00716398,  0.0511735 ]],\n",
-       "                \n",
-       "                       [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
-       "                         -0.01024133, -0.0456225 ],\n",
-       "                        [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
-       "                          0.02512117,  0.02159863],\n",
-       "                        [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
-       "                          0.02156329, -0.00495635],\n",
-       "                        ...,\n",
-       "                        [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
-       "                         -0.03669459, -0.01169418],\n",
-       "                        [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
-       "                          0.01682055,  0.00250151],\n",
-       "                        [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
-       "                         -0.02213018, -0.00444395]],\n",
-       "                \n",
-       "                       [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
-       "                         -0.04441076,  0.02999873],\n",
-       "                        [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
-       "                          0.00269448, -0.02619188],\n",
-       "                        [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
-       "                          0.05100081, -0.00196214],\n",
-       "                        ...,\n",
-       "                        [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
-       "                          0.00641817, -0.00452846],\n",
-       "                        [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
-       "                         -0.0210044 , -0.00747442],\n",
-       "                        [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
-       "                          0.02690425,  0.01807844]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
-       "                          0.00344581, -0.00462025],\n",
-       "                        [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
-       "                         -0.03860147, -0.0139975 ],\n",
-       "                        [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
-       "                          0.03558432, -0.01965741],\n",
-       "                        ...,\n",
-       "                        [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
-       "                          0.02486686, -0.02093521],\n",
-       "                        [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
-       "                         -0.00058519, -0.02835972],\n",
-       "                        [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
-       "                         -0.01785722, -0.04314538]],\n",
-       "                \n",
-       "                       [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
-       "                         -0.02838681, -0.0039719 ],\n",
-       "                        [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
-       "                          0.04732952, -0.02382375],\n",
-       "                        [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
-       "                         -0.00022519, -0.07195798],\n",
-       "                        ...,\n",
-       "                        [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
-       "                          0.04077799, -0.03013852],\n",
-       "                        [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
-       "                          0.01461129,  0.01385937],\n",
-       "                        [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
-       "                          0.03261755,  0.00980215]],\n",
-       "                \n",
-       "                       [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
-       "                          0.02765293, -0.03892074],\n",
-       "                        [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
-       "                         -0.01858809, -0.01930472],\n",
-       "                        [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
-       "                         -0.02284159, -0.00387958],\n",
-       "                        ...,\n",
-       "                        [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
-       "                         -0.02290132, -0.00165214],\n",
-       "                        [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
-       "                          0.00613669, -0.02693458],\n",
-       "                        [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
-       "                          0.01223021, -0.01266978]]], dtype=float32)>\n",
-       "                (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
-       "                         -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
-       "                        [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
-       "                          1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
-       "                        [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
-       "                         -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
-       "                        ...,\n",
-       "                        [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
-       "                         -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
-       "                        [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
-       "                          5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
-       "                        [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
-       "                         -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
-       "                \n",
-       "                       [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
-       "                         -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
-       "                        [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
-       "                          1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
-       "                        [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
-       "                         -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
-       "                        ...,\n",
-       "                        [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
-       "                          2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
-       "                        [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
-       "                          4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
-       "                        [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
-       "                         -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
-       "                \n",
-       "                       [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
-       "                         -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
-       "                        [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
-       "                          9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
-       "                        [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
-       "                         -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
-       "                        ...,\n",
-       "                        [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
-       "                         -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
-       "                        [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
-       "                          4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
-       "                        [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
-       "                         -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
-       "                \n",
-       "                       ...,\n",
-       "                \n",
-       "                       [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
-       "                         -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
-       "                        [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
-       "                         -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
-       "                        [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
-       "                         -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
-       "                        ...,\n",
-       "                        [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
-       "                          3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
-       "                        [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
-       "                         -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
-       "                        [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
-       "                         -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
-       "                \n",
-       "                       [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
-       "                         -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
-       "                        [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
-       "                         -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
-       "                        [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
-       "                         -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
-       "                        ...,\n",
-       "                        [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
-       "                         -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
-       "                        [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
-       "                          9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
-       "                        [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
-       "                         -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
-       "                \n",
-       "                       [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
-       "                          1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
-       "                        [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
-       "                          2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
-       "                        [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
-       "                         -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
-       "                        ...,\n",
-       "                        [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
-       "                         -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
-       "                        [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
-       "                          2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
-       "                        [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
-       "                          1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
-       "                        -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
-       "                         0.25756484, -0.24836208],\n",
-       "                       [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
-       "                        -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
-       "                        -0.24733196,  0.22796093],\n",
-       "                       [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
-       "                         0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
-       "                         0.23860171,  0.2544802 ],\n",
-       "                       [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
-       "                        -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
-       "                         0.23467393, -0.2685565 ],\n",
-       "                       [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
-       "                         0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
-       "                        -0.19225396, -0.22171909],\n",
-       "                       [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
-       "                         0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
-       "                         0.26866576, -0.2760028 ],\n",
-       "                       [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
-       "                        -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
-       "                        -0.18015033,  0.23062935],\n",
-       "                       [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
-       "                        -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
-       "                        -0.15671346,  0.17406578],\n",
-       "                       [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
-       "                         0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
-       "                        -0.31668597,  0.30160227],\n",
-       "                       [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
-       "                        -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
-       "                         0.25486085,  0.24394904],\n",
-       "                       [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
-       "                        -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
-       "                        -0.11399411, -0.11268682],\n",
-       "                       [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
-       "                        -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
-       "                        -0.20129874, -0.27945545],\n",
-       "                       [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
-       "                        -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
-       "                         0.2934034 ,  0.27473462],\n",
-       "                       [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
-       "                         0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
-       "                        -0.13622668,  0.14556718],\n",
-       "                       [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
-       "                        -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
-       "                        -0.13565728,  0.12855493],\n",
-       "                       [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
-       "                        -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
-       "                        -0.20797041,  0.21802594]], dtype=float32)>\n",
-       "                (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "                (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "                array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
-       "                         0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
-       "                        -0.05300143,  0.05010788],\n",
-       "                       [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
-       "                         0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
-       "                        -0.00520796,  0.01617681],\n",
-       "                       [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
-       "                        -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
-       "                        -0.00890318, -0.02950851],\n",
-       "                       [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
-       "                         0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
-       "                        -0.06212043,  0.10200542],\n",
-       "                       [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
-       "                         0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
-       "                        -0.05677698, -0.02087275],\n",
-       "                       [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
-       "                        -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
-       "                        -0.07872038,  0.08625405],\n",
-       "                       [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
-       "                         0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
-       "                        -0.048445  , -0.01480543],\n",
-       "                       [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
-       "                        -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
-       "                        -0.00965995,  0.03196143],\n",
-       "                       [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
-       "                        -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
-       "                         0.1498203 , -0.13828841],\n",
-       "                       [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
-       "                         0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
-       "                        -0.04235039, -0.03586181],\n",
-       "                       [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
-       "                         0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
-       "                        -0.02627585, -0.02604468],\n",
-       "                       [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
-       "                         0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
-       "                        -0.05779656,  0.01974249],\n",
-       "                       [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
-       "                         0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
-       "                        -0.05779454, -0.10485042],\n",
-       "                       [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
-       "                        -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
-       "                        -0.04531232,  0.04370135],\n",
-       "                       [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
-       "                        -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
-       "                        -0.03735423,  0.03250728],\n",
-       "                       [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
-       "                        -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
-       "                        -0.02965603,  0.01923521]], dtype=float32)>\n",
-       "                (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "                array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
-       "                         -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
-       "                         -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
-       "                         -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
-       "                        [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
-       "                         -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
-       "                          1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
-       "                         -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
-       "                        [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
-       "                          9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
-       "                          1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
-       "                         -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
-       "                        [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
-       "                          5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
-       "                          6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
-       "                          8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
-       "                        [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
-       "                          9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
-       "                          8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
-       "                          3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
-       "                        [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
-       "                         -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
-       "                         -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
-       "                         -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
-       "                        [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
-       "                         -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
-       "                          2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
-       "                          1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
-       "                        [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
-       "                         -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
-       "                          1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
-       "                          3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
-       "                        [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
-       "                          1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
-       "                          4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
-       "                          1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
-       "                        [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
-       "                          1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
-       "                         -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
-       "                          6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
-       "                        [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
-       "                         -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
-       "                         -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
-       "                          3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
-       "                        [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
-       "                         -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
-       "                          4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
-       "                         -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
-       "                        [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
-       "                          1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
-       "                         -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
-       "                         -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
-       "                        [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
-       "                         -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
-       "                          1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
-       "                         -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
-       "                        [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
-       "                          6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
-       "                         -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
-       "                         -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
-       "                        [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
-       "                          1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
-       "                          7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
-       "                         -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
-       "                \n",
-       "                       [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
-       "                          1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
-       "                         -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
-       "                          1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
-       "                        [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
-       "                         -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
-       "                         -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
-       "                         -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
-       "                        [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
-       "                         -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
-       "                          5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
-       "                         -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
-       "                        [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
-       "                          1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
-       "                          1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
-       "                         -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
-       "                        [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
-       "                         -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
-       "                          1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
-       "                          1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
-       "                        [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
-       "                         -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
-       "                          2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
-       "                         -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
-       "                        [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
-       "                         -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
-       "                          3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
-       "                          9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
-       "                        [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
-       "                          2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
-       "                         -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
-       "                         -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
-       "                        [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
-       "                          1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
-       "                          1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
-       "                         -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
-       "                        [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
-       "                          6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
-       "                         -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
-       "                         -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
-       "                        [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
-       "                          2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
-       "                          6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
-       "                         -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
-       "                        [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
-       "                          1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
-       "                          1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
-       "                          5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
-       "                        [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
-       "                          5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
-       "                          8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
-       "                         -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
-       "                        [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
-       "                          6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
-       "                          9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
-       "                          5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
-       "                        [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
-       "                         -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
-       "                         -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
-       "                         -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
-       "                        [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
-       "                          5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
-       "                         -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
-       "                          2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (ff): TFXLNetFeedForward(\n",
-       "                (layer_norm): LayerNormalization(\n",
-       "                  (axis): List(\n",
-       "                    (0): 2\n",
-       "                  )\n",
-       "                  (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
-       "                         1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
-       "                         1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
-       "                         1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
-       "                         1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
-       "                         1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
-       "                         1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
-       "                         1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
-       "                         1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
-       "                         1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
-       "                         1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
-       "                         1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
-       "                         1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
-       "                         1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
-       "                         1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
-       "                         1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
-       "                         1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
-       "                         1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
-       "                         1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
-       "                         1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
-       "                         1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
-       "                         1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
-       "                         1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
-       "                         1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
-       "                         1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
-       "                         1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
-       "                         1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
-       "                         1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
-       "                         1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
-       "                         1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
-       "                         1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
-       "                         1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
-       "                         1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
-       "                         1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
-       "                         1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
-       "                         1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
-       "                         1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
-       "                         1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
-       "                         1.1591135 , 1.1882532 ], dtype=float32)>\n",
-       "                  (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
-       "                         -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
-       "                         -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
-       "                          0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
-       "                          0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
-       "                          0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
-       "                         -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
-       "                         -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
-       "                          0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
-       "                         -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
-       "                          0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
-       "                          0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
-       "                         -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
-       "                         -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
-       "                         -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
-       "                          0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
-       "                         -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
-       "                         -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
-       "                         -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
-       "                          0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
-       "                         -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
-       "                          0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
-       "                         -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
-       "                          0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
-       "                         -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
-       "                         -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
-       "                          0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
-       "                          0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
-       "                          0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
-       "                          0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
-       "                         -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
-       "                         -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
-       "                          0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
-       "                          0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
-       "                          0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
-       "                         -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
-       "                         -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
-       "                          0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
-       "                         -0.00908286,  0.01659943], dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_1): Dense(\n",
-       "                  768, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                  array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
-       "                           0.01224422, -0.00072175],\n",
-       "                         [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
-       "                           0.01419899, -0.0136291 ],\n",
-       "                         [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
-       "                          -0.0128223 ,  0.00386102],\n",
-       "                         ...,\n",
-       "                         [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
-       "                          -0.00466742, -0.02921941],\n",
-       "                         [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
-       "                          -0.00111932,  0.02714985],\n",
-       "                         [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
-       "                           0.01096694, -0.02088788]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                  array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
-       "                          9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
-       "                         -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
-       "                         -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
-       "                         -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
-       "                         -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
-       "                         -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
-       "                          2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
-       "                         -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
-       "                         -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
-       "                         -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
-       "                         -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
-       "                         -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
-       "                          2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
-       "                         -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
-       "                         -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
-       "                         -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
-       "                         -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
-       "                         -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
-       "                          1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
-       "                         -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
-       "                         -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
-       "                         -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
-       "                         -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
-       "                         -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
-       "                         -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
-       "                         -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
-       "                         -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
-       "                         -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
-       "                         -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
-       "                         -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
-       "                         -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
-       "                         -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
-       "                         -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
-       "                         -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
-       "                         -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
-       "                          1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
-       "                         -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
-       "                         -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
-       "                         -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
-       "                         -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
-       "                          2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
-       "                         -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
-       "                         -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
-       "                         -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
-       "                         -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
-       "                         -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
-       "                          4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
-       "                         -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
-       "                         -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
-       "                          1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
-       "                         -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
-       "                         -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
-       "                         -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
-       "                         -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
-       "                          2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
-       "                         -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
-       "                         -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
-       "                         -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
-       "                         -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
-       "                         -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
-       "                         -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
-       "                         -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
-       "                          1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
-       "                         -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
-       "                         -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
-       "                         -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
-       "                          1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
-       "                         -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
-       "                          5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
-       "                         -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
-       "                          1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
-       "                         -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
-       "                          5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
-       "                         -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
-       "                          4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
-       "                         -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
-       "                         -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
-       "                         -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
-       "                         -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
-       "                         -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
-       "                         -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
-       "                         -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
-       "                         -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
-       "                          6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
-       "                          7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
-       "                         -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
-       "                         -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
-       "                         -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
-       "                          1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
-       "                          7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
-       "                         -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
-       "                         -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
-       "                         -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
-       "                         -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
-       "                         -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
-       "                         -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
-       "                          9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
-       "                         -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
-       "                         -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
-       "                         -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
-       "                         -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
-       "                         -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
-       "                         -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
-       "                         -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
-       "                          2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
-       "                         -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
-       "                         -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
-       "                         -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
-       "                         -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
-       "                         -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
-       "                         -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
-       "                         -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
-       "                         -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
-       "                          1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
-       "                         -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
-       "                          1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
-       "                         -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
-       "                         -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
-       "                          5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
-       "                         -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
-       "                         -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
-       "                         -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
-       "                         -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
-       "                          1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
-       "                          6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
-       "                         -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
-       "                         -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
-       "                         -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
-       "                         -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
-       "                         -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
-       "                         -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
-       "                         -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
-       "                         -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
-       "                         -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
-       "                         -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
-       "                         -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
-       "                         -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
-       "                         -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
-       "                         -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
-       "                         -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
-       "                          1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
-       "                         -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
-       "                         -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
-       "                         -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
-       "                         -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
-       "                          2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
-       "                          2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
-       "                         -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
-       "                          1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
-       "                          2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
-       "                         -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
-       "                          7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
-       "                         -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
-       "                         -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
-       "                          3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
-       "                         -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
-       "                         -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
-       "                          1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
-       "                          8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
-       "                         -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
-       "                         -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
-       "                          3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
-       "                         -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
-       "                         -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
-       "                         -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
-       "                         -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
-       "                         -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
-       "                         -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
-       "                         -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
-       "                         -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
-       "                         -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
-       "                         -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
-       "                         -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
-       "                         -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
-       "                         -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
-       "                         -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
-       "                         -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
-       "                         -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
-       "                         -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
-       "                          1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
-       "                         -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
-       "                         -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
-       "                         -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
-       "                         -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
-       "                         -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
-       "                         -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
-       "                         -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
-       "                         -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
-       "                         -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
-       "                         -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
-       "                          7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (layer_2): Dense(\n",
-       "                  192, activation=linear, use_bias=True\n",
-       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                  array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
-       "                          -0.00371265,  0.03133386],\n",
-       "                         [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
-       "                           0.01188842, -0.0047044 ],\n",
-       "                         [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
-       "                           0.0055303 ,  0.00608071],\n",
-       "                         ...,\n",
-       "                         [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
-       "                          -0.00608842, -0.00880447],\n",
-       "                         [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
-       "                          -0.0024398 ,  0.01270658],\n",
-       "                         [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
-       "                           0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
-       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                  array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
-       "                          4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
-       "                         -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
-       "                          6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
-       "                         -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
-       "                          7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
-       "                          1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
-       "                          4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
-       "                         -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
-       "                         -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
-       "                          6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
-       "                          2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
-       "                          8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
-       "                          5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
-       "                         -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
-       "                         -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
-       "                          8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
-       "                         -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
-       "                         -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
-       "                          1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
-       "                          1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
-       "                         -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
-       "                          1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
-       "                         -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
-       "                         -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
-       "                         -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
-       "                         -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
-       "                         -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
-       "                          9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
-       "                          8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
-       "                         -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
-       "                         -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
-       "                         -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
-       "                         -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
-       "                          1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
-       "                         -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
-       "                         -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
-       "                          2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
-       "                          7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
-       "                          1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
-       "                          5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
-       "                         -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
-       "                          2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
-       "                          6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
-       "                         -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
-       "                         -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
-       "                          5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
-       "                          1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
-       "                        dtype=float32)>\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (dropout): Dropout(\n",
-       "                  (_feature_shapes): Dict()\n",
-       "                  (_feature_dtypes): Dict()\n",
-       "                )\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "          )\n",
-       "          (dropout): Dropout(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (_kwargs): Dict(\n",
-       "            (name): 'transformer'\n",
-       "            (trainable): True\n",
-       "            (dtype): 'float32'\n",
-       "          )\n",
-       "          (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
-       "          array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
-       "                   -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
-       "                    6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
-       "                   -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
-       "                    7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
-       "                   -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
-       "                   -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
-       "                   -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
-       "                   -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
-       "                    4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
-       "                    1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
-       "                   -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
-       "                    1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
-       "                    2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
-       "                   -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
-       "                   -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
-       "                   -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
-       "                   -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
-       "                    7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
-       "                   -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
-       "                   -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
-       "                   -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
-       "                    1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
-       "                   -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
-       "                   -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
-       "                    1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
-       "                   -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
-       "                   -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
-       "                   -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
-       "                   -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
-       "                   -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
-       "                   -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
-       "                   -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
-       "                    4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
-       "                   -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
-       "                    6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
-       "                   -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
-       "                   -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
-       "                    5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
-       "                   -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
-       "                   -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
-       "                    1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
-       "                    1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
-       "                    1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
-       "                    1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
-       "                   -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
-       "                    3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
-       "                    3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
-       "                    7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
-       "                   -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
-       "                   -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
-       "                    2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
-       "                    9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
-       "                    1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
-       "                   -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
-       "                    1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
-       "                    1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
-       "                   -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
-       "                   -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
-       "                   -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
-       "                    2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
-       "                   -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
-       "                    1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
-       "                    4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
-       "                dtype=float32)>\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (transformer_pre): PrepareTransformerInputs(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (transformer_post): LastHiddenState(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_masking_post): SequentialBlock(\n",
-       "          (layers): List(\n",
-       "            (0): TransformerOutputToRagged(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (1): TransformerInferenceHiddenState(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "          )\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_masking_pre): SequentialBlock(\n",
-       "          (layers): List(\n",
-       "            (0): SequenceCausalLastInference(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (1): ExtractMaskFromTargets(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "          )\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "    )\n",
-       "    (_feature_shapes): Dict()\n",
-       "    (_feature_dtypes): Dict()\n",
-       "  ), SequentialBlock(\n",
-       "    (layers): List(\n",
-       "      (0): _Dense(\n",
-       "        (dense): Dense(\n",
-       "          448, activation=linear, use_bias=True\n",
-       "          (kernel): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/kernel:0' shape=(192, 448) dtype=float32, numpy=\n",
-       "          array([[-0.07455213,  0.08738312, -0.09132323, ..., -0.02972549,\n",
-       "                   0.00206033,  0.08987995],\n",
-       "                 [-0.1418723 ,  0.01722792,  0.03020085, ..., -0.08537607,\n",
-       "                   0.0528537 , -0.05985903],\n",
-       "                 [ 0.12507589, -0.12977485, -0.06706683, ...,  0.00457396,\n",
-       "                   0.07196002,  0.01268123],\n",
-       "                 ...,\n",
-       "                 [-0.00195695,  0.04857071, -0.06206015, ..., -0.00629914,\n",
-       "                  -0.08346017, -0.1287044 ],\n",
-       "                 [ 0.1128123 , -0.04531217,  0.08705742, ...,  0.03716769,\n",
-       "                   0.02515787,  0.018825  ],\n",
-       "                 [ 0.06322469,  0.08437516, -0.02691332, ...,  0.01932786,\n",
-       "                  -0.12162916,  0.093416  ]], dtype=float32)>\n",
-       "          (bias): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/bias:0' shape=(448,) dtype=float32, numpy=\n",
-       "          array([ 2.81504877e-02, -1.44335190e-02,  7.53238574e-02,  3.00887652e-04,\n",
-       "                 -4.56925854e-02,  5.75957075e-02,  3.64849344e-02,  6.72322437e-02,\n",
-       "                  1.42776454e-02,  8.10379311e-02,  7.14076310e-02,  6.54920563e-02,\n",
-       "                  3.74164097e-02,  1.98917389e-02, -4.83481660e-02, -1.00074466e-02,\n",
-       "                  3.73900980e-02, -8.09519216e-02,  4.84817736e-02,  1.61066670e-02,\n",
-       "                  1.44684138e-02, -2.18199790e-02,  4.94538881e-02,  1.79679096e-02,\n",
-       "                 -8.12651997e-04, -2.44654771e-02, -5.43974787e-02, -2.61204913e-02,\n",
-       "                 -7.38266343e-03, -7.60965198e-02,  3.54000367e-02, -4.18136492e-02,\n",
-       "                  3.79898772e-02, -3.03007346e-02,  8.16893298e-03,  2.76147742e-02,\n",
-       "                  1.79042313e-02,  3.28151546e-02, -1.86179411e-02, -7.63999373e-02,\n",
-       "                  1.83715262e-02, -5.15938997e-02,  3.33066992e-02, -4.72240299e-02,\n",
-       "                 -3.20874550e-03,  6.16678521e-02, -4.77884114e-02, -3.93300056e-02,\n",
-       "                 -1.31899863e-02,  7.59410323e-04, -5.72681576e-02, -9.87503603e-02,\n",
-       "                  4.51197736e-02, -9.50545445e-02, -1.95405688e-02,  2.83987969e-02,\n",
-       "                  1.13698682e-02,  4.45396639e-02, -2.78044064e-02,  6.31122962e-02,\n",
-       "                 -4.33192253e-02,  4.00839001e-02,  5.49467281e-03,  3.42128165e-02,\n",
-       "                  5.25591671e-02,  5.23718633e-02,  7.44423121e-02, -4.51364219e-02,\n",
-       "                  5.35758696e-02, -5.21030538e-02,  2.33111754e-02,  3.98062021e-02,\n",
-       "                  1.20931277e-02, -4.18836810e-02, -6.42815232e-02, -7.57243410e-02,\n",
-       "                  5.05668344e-03, -4.21471614e-03,  4.92137186e-02, -2.42954325e-02,\n",
-       "                 -5.17125875e-02, -3.30529623e-02, -2.23571272e-03,  4.99468632e-02,\n",
-       "                  1.68716945e-02, -2.66351961e-02,  5.78250876e-03,  3.81902605e-03,\n",
-       "                 -1.86531839e-03,  4.16462719e-02,  9.35514718e-02, -2.69782171e-03,\n",
-       "                  5.35458066e-02, -5.52286543e-02,  2.77625527e-02,  4.79908995e-02,\n",
-       "                  4.06310894e-02,  5.05130403e-02, -2.12739091e-02, -1.12941816e-01,\n",
-       "                  3.42403203e-02,  5.31319194e-02, -4.04034182e-02, -1.33715738e-02,\n",
-       "                 -6.03716597e-02, -1.27376020e-02,  6.97045550e-02,  3.82803269e-02,\n",
-       "                 -7.08445460e-02,  3.07148062e-02, -5.72059080e-02,  6.36915118e-02,\n",
-       "                  2.22203881e-02, -5.68518378e-02, -4.02556397e-02, -1.29877878e-02,\n",
-       "                  5.60183935e-02, -1.40941944e-02, -7.21269893e-03,  3.69947292e-02,\n",
-       "                 -2.33332161e-03, -2.00844463e-02,  3.79087925e-02,  2.35442892e-02,\n",
-       "                  4.98754382e-02,  3.65077965e-02,  5.73647320e-02,  2.58711316e-02,\n",
-       "                 -5.56078330e-02, -2.12874692e-02, -8.37986395e-02, -1.14348732e-01,\n",
-       "                 -6.78669810e-02, -3.57556753e-02,  1.28276750e-01, -3.55466194e-02,\n",
-       "                  2.15561315e-02,  1.37906556e-03,  5.15904129e-02,  8.29028264e-02,\n",
-       "                  9.20313001e-02, -3.30200940e-02,  1.07878260e-02, -7.14220852e-03,\n",
-       "                 -6.34240657e-02,  9.80120897e-02, -5.69730774e-02,  4.68370598e-03,\n",
-       "                  1.18519412e-02,  4.56332229e-02,  4.96787764e-03,  7.34674558e-02,\n",
-       "                 -9.58381221e-02, -4.71204445e-02,  3.07661314e-02, -5.07396758e-02,\n",
-       "                 -1.06472917e-01, -4.56791297e-02,  3.80240083e-02, -2.05161609e-03,\n",
-       "                 -1.54581284e-02,  2.56832987e-02, -2.02810708e-02, -5.18618040e-02,\n",
-       "                 -6.43723831e-02,  2.77332105e-02, -1.13049299e-01, -8.25305060e-02,\n",
-       "                  2.06295867e-03,  3.80844735e-02, -2.54678018e-02, -7.67340511e-03,\n",
-       "                 -5.74909523e-02,  1.03158038e-02, -5.88300675e-02,  5.72723001e-02,\n",
-       "                  3.75031941e-02,  6.12024851e-02, -8.10966790e-02, -7.40096644e-02,\n",
-       "                  3.44251581e-02,  3.30497278e-04,  5.53901084e-02, -4.65683751e-02,\n",
-       "                  1.63332280e-02,  3.78027409e-02, -1.68565027e-02,  9.12062009e-04,\n",
-       "                  4.45604138e-02, -4.31712791e-02, -3.37749273e-02, -3.64207774e-02,\n",
-       "                 -2.89519206e-02, -3.16274688e-02,  3.14507494e-03, -3.27558778e-02,\n",
-       "                  4.80295047e-02, -5.75459516e-03,  3.29576619e-02, -2.32726056e-02,\n",
-       "                 -4.43717279e-02, -9.45364535e-02,  1.47395516e-02, -3.32047492e-02,\n",
-       "                  5.22973463e-02, -3.33522595e-02, -1.08384183e-02,  2.27131750e-02,\n",
-       "                  6.46038279e-02, -6.03022845e-03,  1.69095900e-02, -4.70702462e-02,\n",
-       "                  4.40847315e-02, -7.00245723e-02, -3.66129214e-03, -4.39092964e-02,\n",
-       "                  4.16780040e-02,  3.74898803e-03,  8.82267579e-02, -6.26748055e-02,\n",
-       "                 -7.64379129e-02,  2.61908397e-02, -3.34191360e-02, -5.92365190e-02,\n",
-       "                 -6.26700446e-02,  8.21715966e-03, -5.94762228e-02, -3.49649764e-03,\n",
-       "                 -7.91054498e-03, -1.05116203e-01, -2.14781463e-02,  6.25034347e-02,\n",
-       "                  6.15232275e-04, -6.48260564e-02,  6.41944706e-02, -9.87281203e-02,\n",
-       "                  4.22392786e-02,  2.89099030e-02,  4.90633957e-02, -3.93835381e-02,\n",
-       "                  2.58098776e-03, -7.80234784e-02,  1.09283090e-01, -3.93152684e-02,\n",
-       "                 -2.41577644e-02, -4.23509404e-02,  5.13587259e-02, -2.08917893e-02,\n",
-       "                 -9.90049797e-04, -3.47129218e-02,  3.90933678e-02,  7.25999326e-02,\n",
-       "                  6.32548481e-02, -6.10543042e-02, -4.34314925e-03, -7.20030144e-02,\n",
-       "                  3.20613086e-02,  6.36913851e-02, -5.04832268e-02, -2.49274280e-02,\n",
-       "                 -4.01630476e-02, -1.02888472e-01,  7.77155161e-02, -2.35703234e-02,\n",
-       "                 -2.90265046e-02, -6.19896501e-02,  2.04921290e-02, -7.78229954e-03,\n",
-       "                  5.88550046e-02,  8.65513459e-02,  4.17349748e-02,  9.32703614e-02,\n",
-       "                 -9.08269882e-02,  7.46139809e-02,  4.26179431e-02, -7.85728619e-02,\n",
-       "                 -4.75439504e-02, -2.36839484e-02,  3.25777940e-02, -4.10465710e-02,\n",
-       "                 -7.24445358e-02,  1.95803270e-02, -6.25842586e-02,  3.84642743e-02,\n",
-       "                  9.73698422e-02, -3.94890178e-03, -6.34230822e-02,  6.54949322e-02,\n",
-       "                 -7.02639446e-02,  7.34698959e-03,  9.34855826e-03,  7.41588175e-02,\n",
-       "                 -4.41608801e-02, -9.66508090e-02,  4.46497202e-02,  1.46768112e-02,\n",
-       "                  2.40328051e-02,  9.56735201e-03, -3.16882804e-02, -8.25649053e-02,\n",
-       "                 -2.15418488e-02, -6.63369074e-02,  5.47350608e-02,  2.53856424e-02,\n",
-       "                  2.52143480e-03,  3.41758989e-02, -3.06833293e-02,  3.53016481e-02,\n",
-       "                  4.56132926e-03, -4.27958407e-02, -4.84563690e-03, -5.22852540e-02,\n",
-       "                  4.93012071e-02,  7.69221857e-02,  8.91810358e-02, -3.40652093e-02,\n",
-       "                  4.26637530e-02,  3.34802121e-02, -6.97589070e-02, -6.99364617e-02,\n",
-       "                  4.96848905e-03,  3.50300744e-02,  5.43780625e-02,  8.37500170e-02,\n",
-       "                 -3.51133458e-02,  6.53213263e-02,  4.08907887e-03,  2.05903780e-02,\n",
-       "                  3.07346564e-02,  1.12512643e-02, -3.35258245e-02,  2.00964883e-02,\n",
-       "                 -7.92130753e-02, -6.38761520e-02, -5.32166511e-02, -6.66197017e-02,\n",
-       "                 -6.02674410e-02, -1.45740258e-02,  1.74162947e-02, -1.00922715e-02,\n",
-       "                  1.64833497e-02,  5.37883444e-03,  2.98331734e-02,  2.39258930e-02,\n",
-       "                 -5.21781705e-02, -3.69406790e-02, -2.19336022e-02,  7.12144002e-02,\n",
-       "                 -1.79243684e-02, -3.97394225e-02, -1.21570602e-01,  9.55308676e-02,\n",
-       "                 -3.95454168e-02, -3.46877822e-03,  3.34495120e-02, -5.81799522e-02,\n",
-       "                 -2.86029372e-02, -5.65220527e-02,  6.55567972e-04,  1.18885962e-02,\n",
-       "                 -6.88158497e-02,  1.21420855e-02, -1.16546685e-02, -2.32225470e-02,\n",
-       "                  4.47147042e-02,  6.95649311e-02, -4.26835306e-02, -1.59330107e-02,\n",
-       "                 -2.79076137e-02,  3.72364931e-02,  9.00735706e-02,  2.86666732e-02,\n",
-       "                 -5.26046082e-02,  2.58283727e-02,  3.59461047e-02, -1.87338181e-02,\n",
-       "                  1.64362025e-02,  1.06756319e-03,  6.04878142e-02, -1.31062083e-02,\n",
-       "                 -7.03594089e-02,  4.74309884e-02,  5.08545339e-02,  3.11768968e-02,\n",
-       "                 -2.47639306e-02, -6.00228012e-02,  6.14431426e-02,  1.42489225e-02,\n",
-       "                  1.61257351e-03, -5.95050529e-02, -4.87988591e-02,  5.72246872e-02,\n",
-       "                  5.33988047e-03,  6.72396421e-02, -7.28468075e-02,  4.77694571e-02,\n",
-       "                  6.32697940e-02,  7.30263665e-02,  1.65096261e-02, -5.55839986e-02,\n",
-       "                 -1.79752782e-02,  6.11882024e-02, -1.52537134e-02,  5.44449463e-02,\n",
-       "                 -2.75510475e-02,  4.73566540e-02, -5.51235154e-02,  3.62135470e-02,\n",
-       "                  4.04872857e-02,  4.04216610e-02, -5.64646423e-02, -9.89621878e-02,\n",
-       "                  4.53976885e-04,  5.28844260e-03, -9.11633074e-02,  2.31906958e-02,\n",
-       "                  5.08855991e-02,  4.17667106e-02, -1.03460886e-02, -9.60661918e-02,\n",
-       "                  4.08463739e-02,  4.51107807e-02,  2.29300167e-02,  4.96448539e-02,\n",
-       "                 -5.79110347e-02,  4.71823243e-03,  2.64104735e-02, -5.66517711e-02,\n",
-       "                 -5.72334938e-02, -3.19476537e-02, -1.32638989e-02,  3.67012108e-04,\n",
-       "                  5.98505437e-02, -5.61106540e-02,  3.62262875e-02,  4.87550870e-02,\n",
-       "                  2.20525730e-02, -4.59078001e-03,  1.95620954e-02, -5.58165535e-02,\n",
-       "                 -5.32784907e-05, -4.48737666e-02,  3.11158206e-02, -1.24887027e-01,\n",
-       "                  1.50636323e-02,  6.38935119e-02,  6.11636676e-02,  6.91439142e-04],\n",
-       "                dtype=float32)>\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "    )\n",
-       "    (_feature_shapes): Dict()\n",
-       "    (_feature_dtypes): Dict()\n",
-       "  ), CategoricalOutput(\n",
-       "    (to_call): EmbeddingTablePrediction(\n",
-       "      (table): EmbeddingTable(\n",
-       "        (features): Dict(\n",
-       "          (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
-       "        )\n",
-       "        (table): Embedding(\n",
-       "          (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
-       "          array([[-0.07078984,  0.02619123, -0.0765224 , ..., -0.00312191,\n",
-       "                  -0.05631081,  0.00704953],\n",
-       "                 [ 0.01045333,  0.00758395,  0.04146114, ...,  0.04109409,\n",
-       "                   0.03323384, -0.01482256],\n",
-       "                 [ 0.05135752,  0.00544662,  0.01021936, ...,  0.01505754,\n",
-       "                   0.04705757,  0.05248646],\n",
-       "                 ...,\n",
-       "                 [-0.01608207, -0.01954165, -0.07535209, ..., -0.04260258,\n",
-       "                  -0.01301942, -0.06323248],\n",
-       "                 [-0.06214527, -0.00186577, -0.0687324 , ..., -0.06297008,\n",
-       "                   0.01791379,  0.00888064],\n",
-       "                 [ 0.00934703, -0.02699249, -0.05696923, ..., -0.01498478,\n",
-       "                  -0.02875059, -0.01258981]], dtype=float32)>\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (output_layer_bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
-       "      array([-0.15439628,  0.03772116,  0.04522803, ..., -0.1648375 ,\n",
-       "             -0.1597082 , -0.15951891], dtype=float32)>\n",
-       "      (bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
-       "      array([-0.15439628,  0.03772116,  0.04522803, ..., -0.1648375 ,\n",
-       "             -0.1597082 , -0.15951891], dtype=float32)>\n",
-       "      (_feature_shapes): Dict()\n",
-       "      (_feature_dtypes): Dict()\n",
-       "    )\n",
-       "    (_feature_shapes): Dict()\n",
-       "    (_feature_dtypes): Dict()\n",
-       "  )))\n",
-       "  (context): ModelContext(\n",
-       "    (_feature_shapes): Dict()\n",
-       "    (_feature_dtypes): Dict()\n",
-       "  )\n",
-       "  (_prepare_features): PrepareFeatures(\n",
-       "    (prepare_lists): PrepareListFeatures()\n",
-       "  )\n",
-       "  (output_names): List(\n",
-       "    (0): 'sess_pid_seq/categorical_output'\n",
-       "  )\n",
-       "  (optimizer): Adam()\n",
-       "  (loss): Dict(\n",
-       "    (sess_pid_seq/categorical_output): CategoricalCrossEntropy()\n",
-       "  )\n",
-       "  (train_pre): SequencePredictNext(\n",
-       "    (_pre): SequentialBlock(\n",
-       "      (layers): List(\n",
-       "        (0): PrepareFeatures(\n",
-       "          (prepare_lists): PrepareListFeatures()\n",
-       "        )\n",
-       "        (1): PrepareFeatures(\n",
-       "          (prepare_lists): PrepareListFeatures()\n",
-       "        )\n",
-       "      )\n",
-       "      (prepare_lists): PrepareListFeatures()\n",
-       "    )\n",
-       "    (transformer): XLNetBlock(\n",
-       "      (transformer): TFXLNetMainLayer(\n",
-       "        (word_embedding): TFSharedEmbeddings(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (layer): List(\n",
-       "          (0): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
-       "                       1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
-       "                       1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
-       "                       0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
-       "                       0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
-       "                       1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
-       "                       0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
-       "                       1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
-       "                       1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
-       "                       0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
-       "                       1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
-       "                       0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
-       "                       1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
-       "                       1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
-       "                       0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
-       "                       1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
-       "                       1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
-       "                       0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
-       "                       1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
-       "                       1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
-       "                       0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
-       "                       1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
-       "                       1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
-       "                       1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
-       "                       1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
-       "                       1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
-       "                       1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
-       "                       1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
-       "                       1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
-       "                       0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
-       "                       1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
-       "                       1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
-       "                       0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
-       "                       1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
-       "                       1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
-       "                       0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
-       "                       1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
-       "                       1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
-       "                       1.0107577 , 1.0596876 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
-       "                        6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
-       "                       -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
-       "                        1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
-       "                       -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
-       "                       -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
-       "                        5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
-       "                       -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
-       "                        1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
-       "                       -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
-       "                       -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
-       "                        3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
-       "                        1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
-       "                       -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
-       "                        5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
-       "                        1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
-       "                       -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
-       "                       -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
-       "                       -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
-       "                       -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
-       "                       -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
-       "                        3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
-       "                        1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
-       "                       -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
-       "                       -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
-       "                       -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
-       "                       -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
-       "                        3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
-       "                        7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
-       "                       -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
-       "                        1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
-       "                       -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
-       "                       -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
-       "                       -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
-       "                       -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
-       "                        4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
-       "                       -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
-       "                        1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
-       "                       -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
-       "                       -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
-       "                       -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
-       "                       -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
-       "                        3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
-       "                        3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
-       "                       -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
-       "                       -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
-       "                       -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
-       "                        2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
-       "                       -0.12369698, -0.12235671],\n",
-       "                      [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
-       "                        0.02513896,  0.02814367],\n",
-       "                      [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
-       "                        0.13238919, -0.11256532],\n",
-       "                      ...,\n",
-       "                      [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
-       "                       -0.08214942, -0.12410881],\n",
-       "                      [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
-       "                        0.06023917,  0.07214421],\n",
-       "                      [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
-       "                       -0.06763364,  0.05550697]],\n",
-       "              \n",
-       "                     [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
-       "                        0.09601118,  0.09255827],\n",
-       "                      [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
-       "                        0.0475458 , -0.07742295],\n",
-       "                      [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
-       "                       -0.05903677,  0.03677876],\n",
-       "                      ...,\n",
-       "                      [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
-       "                        0.10452053,  0.12009949],\n",
-       "                      [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
-       "                       -0.10300028, -0.1044563 ],\n",
-       "                      [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
-       "                        0.06220397, -0.09111064]],\n",
-       "              \n",
-       "                     [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
-       "                       -0.02168103,  0.01568287],\n",
-       "                      [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
-       "                        0.03995887, -0.01548792],\n",
-       "                      [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
-       "                        0.08776175, -0.08319726],\n",
-       "                      ...,\n",
-       "                      [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
-       "                        0.07759988,  0.03240566],\n",
-       "                      [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
-       "                       -0.031378  , -0.02404469],\n",
-       "                      [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
-       "                       -0.02130386,  0.04530597]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
-       "                        0.15062724,  0.12837149],\n",
-       "                      [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
-       "                        0.04776929, -0.08523804],\n",
-       "                      [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
-       "                       -0.09076596,  0.08992289],\n",
-       "                      ...,\n",
-       "                      [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
-       "                        0.10044491,  0.12639156],\n",
-       "                      [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
-       "                       -0.05817353, -0.03657222],\n",
-       "                      [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
-       "                        0.04052235, -0.05048911]],\n",
-       "              \n",
-       "                     [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
-       "                       -0.0087873 ,  0.00054167],\n",
-       "                      [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
-       "                       -0.03617225,  0.04379632],\n",
-       "                      [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
-       "                        0.00649468,  0.00245123],\n",
-       "                      ...,\n",
-       "                      [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
-       "                       -0.01775305,  0.01014595],\n",
-       "                      [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
-       "                       -0.01851957,  0.00425063],\n",
-       "                      [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
-       "                        0.00027551,  0.04116082]],\n",
-       "              \n",
-       "                     [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
-       "                        0.11864589,  0.10221381],\n",
-       "                      [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
-       "                       -0.05264059,  0.00311177],\n",
-       "                      [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
-       "                       -0.04377652,  0.03546317],\n",
-       "                      ...,\n",
-       "                      [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
-       "                        0.02304599,  0.05762106],\n",
-       "                      [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
-       "                       -0.05019034, -0.04568675],\n",
-       "                      [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
-       "                        0.04290378, -0.0746149 ]]], dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
-       "                       -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
-       "                      [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
-       "                        2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
-       "                      [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
-       "                        2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
-       "                       -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
-       "                      [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
-       "                        3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
-       "                      [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
-       "                       -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
-       "              \n",
-       "                     [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
-       "                       -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
-       "                      [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
-       "                       -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
-       "                      [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
-       "                        3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
-       "                      ...,\n",
-       "                      [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
-       "                        1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
-       "                      [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
-       "                       -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
-       "                      [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
-       "                       -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
-       "              \n",
-       "                     [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
-       "                       -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
-       "                      [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
-       "                        1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
-       "                      [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
-       "                        1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
-       "                      ...,\n",
-       "                      [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
-       "                       -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
-       "                      [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
-       "                        2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
-       "                      [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
-       "                       -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
-       "                       -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
-       "                      [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
-       "                        4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
-       "                      [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
-       "                        3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
-       "                        1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
-       "                      [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
-       "                       -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
-       "                      [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
-       "                        2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
-       "              \n",
-       "                     [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
-       "                        6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
-       "                      [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
-       "                       -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
-       "                      [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
-       "                       -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
-       "                       -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
-       "                      [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
-       "                        5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
-       "                      [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
-       "                        4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
-       "              \n",
-       "                     [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
-       "                       -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
-       "                      [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
-       "                       -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
-       "                      [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
-       "                        1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
-       "                      ...,\n",
-       "                      [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
-       "                        1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
-       "                      [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
-       "                       -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
-       "                      [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
-       "                       -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
-       "                        1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
-       "                      [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
-       "                       -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
-       "                      [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
-       "                       -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
-       "                       -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
-       "                      [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
-       "                       -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
-       "                      [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
-       "                        1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
-       "              \n",
-       "                     [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
-       "                       -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
-       "                      [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
-       "                        1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
-       "                      [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
-       "                       -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
-       "                      ...,\n",
-       "                      [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
-       "                        4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
-       "                      [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
-       "                       -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
-       "                      [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
-       "                       -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
-       "              \n",
-       "                     [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
-       "                       -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
-       "                      [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
-       "                        3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
-       "                      [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
-       "                        1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
-       "                      ...,\n",
-       "                      [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
-       "                        8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
-       "                      [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
-       "                        2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
-       "                      [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
-       "                        1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
-       "                        1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
-       "                      [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
-       "                       -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
-       "                      [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
-       "                       -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
-       "                      ...,\n",
-       "                      [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
-       "                        1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
-       "                      [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
-       "                        9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
-       "                      [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
-       "                        2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
-       "              \n",
-       "                     [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
-       "                       -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
-       "                      [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
-       "                       -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
-       "                      [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
-       "                       -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
-       "                       -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
-       "                      [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
-       "                        7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
-       "                      [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
-       "                        2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
-       "              \n",
-       "                     [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
-       "                       -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
-       "                      [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
-       "                        1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
-       "                      [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
-       "                        5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
-       "                        9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
-       "                      [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
-       "                       -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
-       "                      [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
-       "                        3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
-       "                        1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
-       "                      [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
-       "                        1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
-       "                      [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
-       "                        1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
-       "                      ...,\n",
-       "                      [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
-       "                        2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
-       "                      [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
-       "                       -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
-       "                      [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
-       "                        3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
-       "              \n",
-       "                     [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
-       "                       -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
-       "                      [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
-       "                        4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
-       "                      [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
-       "                       -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
-       "                      ...,\n",
-       "                      [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
-       "                        1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
-       "                      [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
-       "                       -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
-       "                      [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
-       "                       -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
-       "              \n",
-       "                     [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
-       "                       -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
-       "                      [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
-       "                        1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
-       "                      [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
-       "                        8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
-       "                      ...,\n",
-       "                      [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
-       "                        3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
-       "                      [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
-       "                        1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
-       "                      [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
-       "                        5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
-       "                       -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
-       "                      [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
-       "                        3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
-       "                      [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
-       "                        5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
-       "                      ...,\n",
-       "                      [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
-       "                       -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
-       "                      [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
-       "                        1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
-       "                      [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
-       "                        5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
-       "              \n",
-       "                     [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
-       "                        2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
-       "                      [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
-       "                       -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
-       "                      [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
-       "                       -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
-       "                      ...,\n",
-       "                      [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
-       "                       -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
-       "                      [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
-       "                        1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
-       "                      [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
-       "                        2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
-       "              \n",
-       "                     [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
-       "                       -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
-       "                      [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
-       "                       -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
-       "                      [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
-       "                        1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
-       "                      ...,\n",
-       "                      [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
-       "                        2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
-       "                      [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
-       "                       -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
-       "                      [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
-       "                       -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
-       "                       -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
-       "                      [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
-       "                        2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
-       "                      [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
-       "                        1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
-       "                      ...,\n",
-       "                      [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
-       "                       -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
-       "                      [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
-       "                       -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
-       "                      [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
-       "                       -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
-       "              \n",
-       "                     [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
-       "                       -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
-       "                      [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
-       "                        1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
-       "                      [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
-       "                        7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
-       "                      ...,\n",
-       "                      [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
-       "                       -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
-       "                      [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
-       "                       -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
-       "                      [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
-       "                       -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
-       "              \n",
-       "                     [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
-       "                       -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
-       "                      [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
-       "                        1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
-       "                      [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
-       "                        1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
-       "                      ...,\n",
-       "                      [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
-       "                       -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
-       "                      [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
-       "                       -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
-       "                      [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
-       "                       -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
-       "                       -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
-       "                      [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
-       "                        1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
-       "                      [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
-       "                        3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
-       "                      ...,\n",
-       "                      [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
-       "                       -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
-       "                      [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
-       "                       -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
-       "                      [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
-       "                        2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
-       "              \n",
-       "                     [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
-       "                        2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
-       "                      [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
-       "                       -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
-       "                      [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
-       "                       -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
-       "                        8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
-       "                      [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
-       "                        5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
-       "                      [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
-       "                        1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
-       "              \n",
-       "                     [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
-       "                       -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
-       "                      [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
-       "                       -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
-       "                      [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
-       "                       -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
-       "                      ...,\n",
-       "                      [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
-       "                       -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
-       "                      [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
-       "                       -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
-       "                      [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
-       "                       -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
-       "                       0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
-       "                       0.37070706,  0.35559788],\n",
-       "                     [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
-       "                       0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
-       "                       0.0776644 , -0.07216003],\n",
-       "                     [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
-       "                       0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
-       "                      -0.16261199,  0.16058037],\n",
-       "                     [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
-       "                      -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
-       "                      -0.20082442, -0.21696469],\n",
-       "                     [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
-       "                      -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
-       "                       0.24445428,  0.27668142],\n",
-       "                     [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
-       "                      -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
-       "                      -0.29824102, -0.31075856],\n",
-       "                     [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
-       "                      -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
-       "                      -0.38081092, -0.39247522],\n",
-       "                     [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
-       "                       0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
-       "                      -0.23054157, -0.22402786],\n",
-       "                     [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
-       "                       0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
-       "                       0.33728704, -0.35013184],\n",
-       "                     [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
-       "                      -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
-       "                       0.29340708,  0.2927634 ],\n",
-       "                     [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
-       "                       0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
-       "                      -0.35776407, -0.33932883],\n",
-       "                     [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
-       "                      -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
-       "                       0.3707558 , -0.3911879 ],\n",
-       "                     [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
-       "                      -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
-       "                       0.12306441,  0.10861646],\n",
-       "                     [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
-       "                       0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
-       "                       0.39667937,  0.38020003],\n",
-       "                     [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
-       "                      -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
-       "                      -0.29706052, -0.31455588],\n",
-       "                     [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
-       "                      -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
-       "                       0.10973554, -0.05313613]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
-       "                       0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
-       "                      -0.01393487, -0.01188555],\n",
-       "                     [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
-       "                       0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
-       "                      -0.00388369, -0.01727411],\n",
-       "                     [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
-       "                       0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
-       "                       0.12056144, -0.15448172],\n",
-       "                     [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
-       "                      -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
-       "                      -0.11767636, -0.10332035],\n",
-       "                     [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
-       "                      -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
-       "                       0.09375099,  0.09006778],\n",
-       "                     [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
-       "                      -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
-       "                      -0.07627007, -0.09407212],\n",
-       "                     [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
-       "                      -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
-       "                      -0.09510182, -0.07508499],\n",
-       "                     [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
-       "                       0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
-       "                      -0.11242524, -0.12828752],\n",
-       "                     [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
-       "                       0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
-       "                       0.1122688 , -0.0936246 ],\n",
-       "                     [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
-       "                      -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
-       "                       0.08842966,  0.07842822],\n",
-       "                     [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
-       "                       0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
-       "                      -0.11914786, -0.05327021],\n",
-       "                     [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
-       "                      -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
-       "                       0.12055498, -0.11824764],\n",
-       "                     [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
-       "                       0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
-       "                       0.11570179,  0.13300925],\n",
-       "                     [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
-       "                       0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
-       "                       0.14165434,  0.07234689],\n",
-       "                     [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
-       "                      -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
-       "                      -0.0326612 , -0.05191225],\n",
-       "                     [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
-       "                       0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
-       "                       0.03455094,  0.00630618]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
-       "                       -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
-       "                       -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
-       "                        6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
-       "                      [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
-       "                        4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
-       "                        6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
-       "                        9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
-       "                      [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
-       "                       -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
-       "                        4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
-       "                        7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
-       "                      [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
-       "                        2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
-       "                       -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
-       "                       -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
-       "                      [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
-       "                        1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
-       "                        7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
-       "                        1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
-       "                      [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
-       "                        2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
-       "                       -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
-       "                       -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
-       "                      [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
-       "                        3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
-       "                       -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
-       "                       -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
-       "                      [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
-       "                        2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
-       "                        4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
-       "                        4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
-       "                      [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
-       "                        4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
-       "                        1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
-       "                        1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
-       "                      [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
-       "                        3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
-       "                       -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
-       "                        5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
-       "                      [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
-       "                        7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
-       "                        1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
-       "                       -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
-       "                      [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
-       "                       -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
-       "                       -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
-       "                        7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
-       "                      [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
-       "                       -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
-       "                       -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
-       "                       -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
-       "                      [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
-       "                        4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
-       "                       -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
-       "                        2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
-       "                      [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
-       "                        1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
-       "                        1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
-       "                       -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
-       "                      [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
-       "                       -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
-       "                       -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
-       "                        1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
-       "              \n",
-       "                     [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
-       "                       -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
-       "                       -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
-       "                       -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
-       "                      [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
-       "                        1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
-       "                        5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
-       "                       -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
-       "                      [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
-       "                       -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
-       "                       -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
-       "                       -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
-       "                      [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
-       "                       -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
-       "                       -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
-       "                       -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
-       "                      [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
-       "                       -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
-       "                       -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
-       "                        1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
-       "                      [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
-       "                        7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
-       "                       -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
-       "                       -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
-       "                      [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
-       "                       -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
-       "                       -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
-       "                        1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
-       "                      [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
-       "                       -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
-       "                        1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
-       "                        2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
-       "                      [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
-       "                        4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
-       "                       -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
-       "                        1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
-       "                      [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
-       "                       -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
-       "                        9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
-       "                       -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
-       "                      [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
-       "                        2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
-       "                       -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
-       "                        2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
-       "                      [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
-       "                        1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
-       "                        1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
-       "                        1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
-       "                      [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
-       "                       -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
-       "                       -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
-       "                        1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
-       "                      [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
-       "                        1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
-       "                       -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
-       "                        5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
-       "                      [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
-       "                        1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
-       "                       -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
-       "                       -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
-       "                      [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
-       "                       -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
-       "                       -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
-       "                       -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
-       "                       1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
-       "                       1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
-       "                       1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
-       "                       0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
-       "                       1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
-       "                       1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
-       "                       1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
-       "                       1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
-       "                       0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
-       "                       1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
-       "                       1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
-       "                       1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
-       "                       1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
-       "                       1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
-       "                       1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
-       "                       1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
-       "                       1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
-       "                       1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
-       "                       1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
-       "                       1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
-       "                       1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
-       "                       1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
-       "                       1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
-       "                       1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
-       "                       1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
-       "                       1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
-       "                       1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
-       "                       1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
-       "                       0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
-       "                       1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
-       "                       1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
-       "                       1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
-       "                       1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
-       "                       1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
-       "                       0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
-       "                       1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
-       "                       1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
-       "                       1.0334889 , 1.0734522 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
-       "                        0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
-       "                       -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
-       "                        0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
-       "                       -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
-       "                       -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
-       "                        0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
-       "                       -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
-       "                       -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
-       "                        0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
-       "                        0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
-       "                        0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
-       "                        0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
-       "                       -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
-       "                       -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
-       "                       -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
-       "                       -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
-       "                        0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
-       "                       -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
-       "                       -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
-       "                       -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
-       "                        0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
-       "                       -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
-       "                        0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
-       "                       -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
-       "                        0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
-       "                        0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
-       "                        0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
-       "                        0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
-       "                        0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
-       "                        0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
-       "                       -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
-       "                        0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
-       "                       -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
-       "                       -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
-       "                        0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
-       "                       -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
-       "                        0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
-       "                       -0.02164674,  0.01641086], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
-       "                        -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
-       "                       [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
-       "                        -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
-       "                       [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
-       "                        -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
-       "                       ...,\n",
-       "                       [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
-       "                        -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
-       "                       [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
-       "                        -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
-       "                       [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
-       "                        -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
-       "                        2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
-       "                       -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
-       "                        1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
-       "                        2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
-       "                        1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
-       "                        5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
-       "                        1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
-       "                        1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
-       "                        1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
-       "                        2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
-       "                        9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
-       "                        2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
-       "                       -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
-       "                       -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
-       "                        2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
-       "                        8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
-       "                       -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
-       "                        1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
-       "                        1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
-       "                       -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
-       "                       -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
-       "                        2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
-       "                        7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
-       "                        1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
-       "                       -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
-       "                        6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
-       "                        1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
-       "                        3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
-       "                       -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
-       "                       -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
-       "                       -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
-       "                        1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
-       "                       -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
-       "                       -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
-       "                        6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
-       "                        7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
-       "                        2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
-       "                        2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
-       "                        6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
-       "                        1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
-       "                       -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
-       "                        1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
-       "                        4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
-       "                       -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
-       "                        5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
-       "                        2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
-       "                        1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
-       "                       -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
-       "                       -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
-       "                        2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
-       "                        3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
-       "                       -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
-       "                        2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
-       "                        1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
-       "                        3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
-       "                        6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
-       "                       -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
-       "                        8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
-       "                        2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
-       "                        1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
-       "                        2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
-       "                        9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
-       "                        4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
-       "                        2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
-       "                       -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
-       "                       -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
-       "                       -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
-       "                        1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
-       "                        1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
-       "                       -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
-       "                       -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
-       "                        9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
-       "                       -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
-       "                       -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
-       "                        1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
-       "                        3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
-       "                       -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
-       "                       -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
-       "                        3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
-       "                        7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
-       "                        1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
-       "                        8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
-       "                        1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
-       "                       -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
-       "                       -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
-       "                        1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
-       "                        2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
-       "                        8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
-       "                        4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
-       "                        1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
-       "                        1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
-       "                       -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
-       "                       -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
-       "                        4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
-       "                        1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
-       "                        2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
-       "                        1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
-       "                       -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
-       "                       -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
-       "                       -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
-       "                        1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
-       "                       -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
-       "                        9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
-       "                        6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
-       "                       -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
-       "                        1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
-       "                        6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
-       "                        1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
-       "                       -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
-       "                        6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
-       "                       -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
-       "                        1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
-       "                       -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
-       "                        4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
-       "                       -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
-       "                        1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
-       "                        2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
-       "                        1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
-       "                        1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
-       "                        6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
-       "                       -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
-       "                        3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
-       "                       -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
-       "                        2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
-       "                       -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
-       "                        1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
-       "                        2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
-       "                       -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
-       "                        1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
-       "                        4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
-       "                        1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
-       "                        6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
-       "                        8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
-       "                        6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
-       "                       -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
-       "                        1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
-       "                        1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
-       "                       -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
-       "                       -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
-       "                        1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
-       "                        2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
-       "                       -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
-       "                       -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
-       "                        2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
-       "                        1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
-       "                        3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
-       "                       -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
-       "                        7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
-       "                        3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
-       "                        1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
-       "                        1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
-       "                        1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
-       "                        4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
-       "                       -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
-       "                        1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
-       "                        1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
-       "                       -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
-       "                       -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
-       "                        8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
-       "                        1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
-       "                        1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
-       "                       -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
-       "                        6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
-       "                       -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
-       "                        6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
-       "                       -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
-       "                       -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
-       "                       -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
-       "                        1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
-       "                        1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
-       "                        1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
-       "                        7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
-       "                        1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
-       "                       -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
-       "                       -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
-       "                        1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
-       "                       -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
-       "                        3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
-       "                       -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
-       "                        1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
-       "                        7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
-       "                       -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
-       "                       -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
-       "                        2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
-       "                       -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
-       "                        2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
-       "                        1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
-       "                       -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
-       "                        1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
-       "                       -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
-       "                        2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
-       "                        -0.00204962,  0.01233771],\n",
-       "                       [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
-       "                         0.01483128,  0.02967459],\n",
-       "                       [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
-       "                         0.01299867, -0.00927783],\n",
-       "                       ...,\n",
-       "                       [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
-       "                         0.00615161,  0.00803701],\n",
-       "                       [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
-       "                        -0.00725265, -0.00729213],\n",
-       "                       [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
-       "                        -0.01250057, -0.02561413]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
-       "                        1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
-       "                       -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
-       "                        1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
-       "                       -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
-       "                       -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
-       "                        5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
-       "                       -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
-       "                        8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
-       "                       -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
-       "                       -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
-       "                        2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
-       "                       -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
-       "                        7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
-       "                       -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
-       "                        7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
-       "                        8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
-       "                       -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
-       "                       -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
-       "                       -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
-       "                       -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
-       "                        2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
-       "                        1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
-       "                       -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
-       "                       -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
-       "                       -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
-       "                       -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
-       "                        7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
-       "                       -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
-       "                       -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
-       "                        5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
-       "                       -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
-       "                       -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
-       "                       -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
-       "                       -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
-       "                        6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
-       "                       -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
-       "                        1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
-       "                       -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
-       "                       -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
-       "                        7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
-       "                        1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
-       "                        9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
-       "                        2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
-       "                       -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
-       "                       -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
-       "                        5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
-       "                        1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
-       "                       1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
-       "                       1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
-       "                       0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
-       "                       1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
-       "                       1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
-       "                       0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
-       "                       1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
-       "                       1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
-       "                       0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
-       "                       1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
-       "                       0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
-       "                       1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
-       "                       1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
-       "                       1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
-       "                       1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
-       "                       1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
-       "                       1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
-       "                       1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
-       "                       1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
-       "                       1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
-       "                       1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
-       "                       1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
-       "                       1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
-       "                       0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
-       "                       1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
-       "                       0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
-       "                       1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
-       "                       0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
-       "                       0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
-       "                       1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
-       "                       1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
-       "                       0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
-       "                       1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
-       "                       1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
-       "                       0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
-       "                       1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
-       "                       1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
-       "                       1.0128983 , 1.0420789 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
-       "                       -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
-       "                        8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
-       "                        2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
-       "                       -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
-       "                       -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
-       "                       -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
-       "                       -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
-       "                       -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
-       "                        2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
-       "                        3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
-       "                        3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
-       "                        3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
-       "                       -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
-       "                       -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
-       "                        1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
-       "                       -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
-       "                       -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
-       "                       -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
-       "                       -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
-       "                       -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
-       "                        1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
-       "                        1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
-       "                       -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
-       "                       -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
-       "                       -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
-       "                        2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
-       "                       -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
-       "                       -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
-       "                       -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
-       "                        1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
-       "                        1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
-       "                       -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
-       "                       -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
-       "                       -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
-       "                        1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
-       "                       -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
-       "                       -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
-       "                       -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
-       "                        7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
-       "                       -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
-       "                        1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
-       "                        3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
-       "                        3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
-       "                       -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
-       "                       -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
-       "                       -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
-       "                        8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
-       "                        7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
-       "                      [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
-       "                        1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
-       "                      [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
-       "                       -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
-       "                      ...,\n",
-       "                      [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
-       "                        3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
-       "                      [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
-       "                        1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
-       "                      [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
-       "                        9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
-       "              \n",
-       "                     [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
-       "                       -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
-       "                      [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
-       "                       -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
-       "                      [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
-       "                        3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
-       "                        7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
-       "                      [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
-       "                       -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
-       "                      [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
-       "                       -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
-       "              \n",
-       "                     [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
-       "                       -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
-       "                      [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
-       "                       -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
-       "                      [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
-       "                        6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
-       "                       -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
-       "                      [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
-       "                       -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
-       "                      [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
-       "                       -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
-       "                       -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
-       "                      [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
-       "                       -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
-       "                      [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
-       "                       -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
-       "                      ...,\n",
-       "                      [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
-       "                        9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
-       "                      [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
-       "                       -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
-       "                      [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
-       "                       -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
-       "              \n",
-       "                     [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
-       "                        1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
-       "                      [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
-       "                       -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
-       "                      [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
-       "                       -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
-       "                       -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
-       "                      [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
-       "                       -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
-       "                      [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
-       "                        7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
-       "              \n",
-       "                     [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
-       "                       -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
-       "                      [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
-       "                       -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
-       "                      [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
-       "                        1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
-       "                      ...,\n",
-       "                      [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
-       "                        3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
-       "                      [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
-       "                        5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
-       "                      [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
-       "                        2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
-       "                    dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
-       "                       -0.10876201,  0.0518376 ],\n",
-       "                      [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
-       "                        0.01024422, -0.0047144 ],\n",
-       "                      [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
-       "                        0.01880827,  0.00846547],\n",
-       "                      ...,\n",
-       "                      [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
-       "                        0.04121248,  0.00622395],\n",
-       "                      [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
-       "                        0.00683424, -0.01068041],\n",
-       "                      [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
-       "                       -0.01545478,  0.00205119]],\n",
-       "              \n",
-       "                     [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
-       "                       -0.12276172, -0.00676864],\n",
-       "                      [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
-       "                        0.01007075,  0.03550502],\n",
-       "                      [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
-       "                        0.00668171,  0.04424441],\n",
-       "                      ...,\n",
-       "                      [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
-       "                       -0.02856454,  0.03050387],\n",
-       "                      [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
-       "                       -0.02215741,  0.01845626],\n",
-       "                      [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
-       "                        0.03298638,  0.01737015]],\n",
-       "              \n",
-       "                     [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
-       "                        0.00755295,  0.01676364],\n",
-       "                      [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
-       "                       -0.03828989, -0.06387301],\n",
-       "                      [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
-       "                        0.04120573, -0.04320288],\n",
-       "                      ...,\n",
-       "                      [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
-       "                        0.039828  ,  0.01575541],\n",
-       "                      [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
-       "                       -0.00391845, -0.0216135 ],\n",
-       "                      [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
-       "                       -0.05756253,  0.01769848]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
-       "                       -0.10177041, -0.03314629],\n",
-       "                      [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
-       "                        0.0264037 ,  0.00855082],\n",
-       "                      [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
-       "                       -0.08611775,  0.08852727],\n",
-       "                      ...,\n",
-       "                      [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
-       "                       -0.05256388,  0.00049124],\n",
-       "                      [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
-       "                       -0.010408  , -0.02198589],\n",
-       "                      [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
-       "                        0.00311856,  0.02825575]],\n",
-       "              \n",
-       "                     [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
-       "                        0.09931507,  0.01606977],\n",
-       "                      [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
-       "                       -0.00323939,  0.06076182],\n",
-       "                      [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
-       "                       -0.01210698, -0.05587041],\n",
-       "                      ...,\n",
-       "                      [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
-       "                       -0.00253815, -0.04528459],\n",
-       "                      [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
-       "                        0.01135639, -0.00226221],\n",
-       "                      [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
-       "                       -0.000718  , -0.0467924 ]],\n",
-       "              \n",
-       "                     [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
-       "                       -0.07196326,  0.02667288],\n",
-       "                      [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
-       "                        0.03794343, -0.01332447],\n",
-       "                      [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
-       "                        0.0457263 ,  0.05769112],\n",
-       "                      ...,\n",
-       "                      [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
-       "                        0.00275381,  0.01149508],\n",
-       "                      [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
-       "                        0.05586889, -0.01648431],\n",
-       "                      [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
-       "                       -0.06611379,  0.05732429]]], dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
-       "                        1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
-       "                      [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
-       "                        1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
-       "                      [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
-       "                       -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
-       "                        2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
-       "                      [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
-       "                        4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
-       "                      [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
-       "                       -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
-       "              \n",
-       "                     [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
-       "                       -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
-       "                      [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
-       "                       -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
-       "                      [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
-       "                       -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
-       "                      ...,\n",
-       "                      [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
-       "                        6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
-       "                      [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
-       "                       -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
-       "                      [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
-       "                       -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
-       "              \n",
-       "                     [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
-       "                       -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
-       "                      [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
-       "                        1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
-       "                      [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
-       "                       -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
-       "                      ...,\n",
-       "                      [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
-       "                        5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
-       "                      [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
-       "                        1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
-       "                      [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
-       "                        1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
-       "                        2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
-       "                      [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
-       "                        3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
-       "                      [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
-       "                        4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
-       "                      ...,\n",
-       "                      [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
-       "                        8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
-       "                      [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
-       "                        2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
-       "                      [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
-       "                        2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
-       "              \n",
-       "                     [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
-       "                       -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
-       "                      [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
-       "                        2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
-       "                      [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
-       "                        3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
-       "                      ...,\n",
-       "                      [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
-       "                        2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
-       "                      [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
-       "                        7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
-       "                      [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
-       "                        1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
-       "              \n",
-       "                     [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
-       "                        2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
-       "                      [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
-       "                        8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
-       "                      [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
-       "                        1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
-       "                       -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
-       "                      [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
-       "                       -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
-       "                      [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
-       "                        2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
-       "                       -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
-       "                      [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
-       "                       -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
-       "                      [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
-       "                        3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
-       "                      ...,\n",
-       "                      [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
-       "                        3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
-       "                      [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
-       "                        3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
-       "                      [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
-       "                        3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
-       "              \n",
-       "                     [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
-       "                        3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
-       "                      [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
-       "                        1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
-       "                      [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
-       "                       -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
-       "                      ...,\n",
-       "                      [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
-       "                       -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
-       "                      [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
-       "                        3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
-       "                      [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
-       "                        1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
-       "              \n",
-       "                     [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
-       "                       -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
-       "                      [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
-       "                        1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
-       "                      [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
-       "                       -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
-       "                      ...,\n",
-       "                      [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
-       "                       -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
-       "                      [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
-       "                        1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
-       "                      [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
-       "                        6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
-       "                        1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
-       "                      [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
-       "                        4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
-       "                      [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
-       "                       -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
-       "                      ...,\n",
-       "                      [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
-       "                        3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
-       "                      [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
-       "                        9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
-       "                      [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
-       "                        6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
-       "              \n",
-       "                     [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
-       "                       -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
-       "                      [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
-       "                        8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
-       "                      [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
-       "                        1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
-       "                      ...,\n",
-       "                      [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
-       "                       -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
-       "                      [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
-       "                       -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
-       "                      [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
-       "                        2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
-       "              \n",
-       "                     [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
-       "                       -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
-       "                      [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
-       "                        4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
-       "                      [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
-       "                       -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
-       "                      ...,\n",
-       "                      [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
-       "                       -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
-       "                      [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
-       "                        3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
-       "                      [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
-       "                        5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
-       "                        2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
-       "                      [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
-       "                        1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
-       "                      [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
-       "                       -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
-       "                      ...,\n",
-       "                      [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
-       "                        2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
-       "                      [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
-       "                        2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
-       "                      [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
-       "                        1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
-       "              \n",
-       "                     [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
-       "                        1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
-       "                      [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
-       "                        1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
-       "                      [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
-       "                       -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
-       "                      ...,\n",
-       "                      [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
-       "                        1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
-       "                      [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
-       "                        1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
-       "                      [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
-       "                        1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
-       "              \n",
-       "                     [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
-       "                        1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
-       "                      [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
-       "                        1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
-       "                      [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
-       "                       -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
-       "                      ...,\n",
-       "                      [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
-       "                        1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
-       "                      [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
-       "                        1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
-       "                      [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
-       "                        1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
-       "                        5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
-       "                      [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
-       "                        1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
-       "                      [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
-       "                        1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
-       "                      ...,\n",
-       "                      [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
-       "                        4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
-       "                      [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
-       "                       -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
-       "                      [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
-       "                        1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
-       "              \n",
-       "                     [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
-       "                       -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
-       "                      [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
-       "                        1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
-       "                      [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
-       "                       -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
-       "                      ...,\n",
-       "                      [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
-       "                       -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
-       "                      [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
-       "                       -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
-       "                      [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
-       "                        1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
-       "              \n",
-       "                     [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
-       "                        1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
-       "                      [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
-       "                        3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
-       "                      [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
-       "                       -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
-       "                      ...,\n",
-       "                      [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
-       "                        1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
-       "                      [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
-       "                        2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
-       "                      [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
-       "                        8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
-       "                      -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
-       "                      -0.08941454,  0.37458393],\n",
-       "                     [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
-       "                       0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
-       "                      -0.32297572,  0.3089489 ],\n",
-       "                     [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
-       "                      -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
-       "                      -0.31591862, -0.29939887],\n",
-       "                     [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
-       "                      -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
-       "                       0.2792229 ,  0.26833603],\n",
-       "                     [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
-       "                       0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
-       "                      -0.31171426, -0.25726327],\n",
-       "                     [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
-       "                       0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
-       "                       0.30099693,  0.2978344 ],\n",
-       "                     [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
-       "                       0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
-       "                       0.36704957, -0.07152183],\n",
-       "                     [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
-       "                       0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
-       "                      -0.24604012, -0.25978062],\n",
-       "                     [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
-       "                       0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
-       "                      -0.35605282, -0.34466416],\n",
-       "                     [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
-       "                       0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
-       "                      -0.36399728, -0.30652383],\n",
-       "                     [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
-       "                      -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
-       "                      -0.26509777,  0.27066582],\n",
-       "                     [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
-       "                      -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
-       "                       0.3016155 , -0.2862795 ],\n",
-       "                     [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
-       "                      -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
-       "                       0.31764168, -0.3219256 ],\n",
-       "                     [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
-       "                      -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
-       "                      -0.38232875, -0.37825328],\n",
-       "                     [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
-       "                      -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
-       "                      -0.35072395,  0.3597266 ],\n",
-       "                     [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
-       "                      -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
-       "                       0.2981984 , -0.3554742 ]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
-       "                      -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
-       "                      -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
-       "                       1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
-       "                     [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
-       "                      -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
-       "                       1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
-       "                       6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
-       "                     [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
-       "                       1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
-       "                       1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
-       "                      -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
-       "                     [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
-       "                      -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
-       "                      -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
-       "                      -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
-       "                     [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
-       "                      -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
-       "                       2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
-       "                      -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
-       "                     [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
-       "                       8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
-       "                       8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
-       "                       1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
-       "                     [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
-       "                      -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
-       "                       8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
-       "                      -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
-       "                     [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
-       "                       5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
-       "                      -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
-       "                       7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
-       "                     [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
-       "                       1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
-       "                       7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
-       "                       1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
-       "                     [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
-       "                      -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
-       "                       1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
-       "                       2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
-       "                     [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
-       "                      -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
-       "                      -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
-       "                       7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
-       "                     [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
-       "                      -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
-       "                      -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
-       "                      -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
-       "                     [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
-       "                       1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
-       "                      -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
-       "                       8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
-       "                     [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
-       "                       1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
-       "                      -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
-       "                       1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
-       "                     [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
-       "                      -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
-       "                       1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
-       "                       1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
-       "                     [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
-       "                       1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
-       "                      -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
-       "                       1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
-       "                        1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
-       "                       -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
-       "                       -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
-       "                      [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
-       "                        9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
-       "                        6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
-       "                       -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
-       "                      [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
-       "                       -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
-       "                        6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
-       "                        2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
-       "                      [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
-       "                       -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
-       "                       -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
-       "                       -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
-       "                      [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
-       "                        6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
-       "                        3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
-       "                        8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
-       "                      [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
-       "                        1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
-       "                       -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
-       "                        1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
-       "                      [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
-       "                       -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
-       "                       -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
-       "                        5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
-       "                      [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
-       "                        1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
-       "                       -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
-       "                        1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
-       "                      [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
-       "                        2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
-       "                       -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
-       "                        2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
-       "                      [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
-       "                        8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
-       "                        4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
-       "                        1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
-       "                      [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
-       "                        1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
-       "                        8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
-       "                        9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
-       "                      [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
-       "                        5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
-       "                       -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
-       "                        1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
-       "                      [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
-       "                        6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
-       "                        1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
-       "                       -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
-       "                      [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
-       "                        1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
-       "                       -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
-       "                        1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
-       "                      [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
-       "                        8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
-       "                        1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
-       "                        7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
-       "                      [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
-       "                       -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
-       "                       -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
-       "                       -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
-       "              \n",
-       "                     [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
-       "                        5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
-       "                       -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
-       "                       -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
-       "                      [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
-       "                        6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
-       "                       -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
-       "                       -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
-       "                      [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
-       "                       -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
-       "                       -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
-       "                       -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
-       "                      [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
-       "                       -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
-       "                        2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
-       "                       -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
-       "                      [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
-       "                       -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
-       "                        5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
-       "                        6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
-       "                      [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
-       "                       -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
-       "                       -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
-       "                        7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
-       "                      [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
-       "                        5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
-       "                        8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
-       "                        3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
-       "                      [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
-       "                        3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
-       "                        5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
-       "                       -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
-       "                      [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
-       "                       -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
-       "                        3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
-       "                       -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
-       "                      [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
-       "                        1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
-       "                        5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
-       "                        1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
-       "                      [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
-       "                        1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
-       "                       -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
-       "                       -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
-       "                      [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
-       "                        2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
-       "                        8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
-       "                       -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
-       "                      [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
-       "                        4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
-       "                       -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
-       "                       -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
-       "                      [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
-       "                       -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
-       "                        8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
-       "                       -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
-       "                      [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
-       "                       -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
-       "                       -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
-       "                       -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
-       "                      [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
-       "                       -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
-       "                       -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
-       "                       -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
-       "                       1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
-       "                       1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
-       "                       0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
-       "                       1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
-       "                       0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
-       "                       0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
-       "                       1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
-       "                       1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
-       "                       0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
-       "                       1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
-       "                       1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
-       "                       1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
-       "                       1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
-       "                       1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
-       "                       1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
-       "                       1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
-       "                       1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
-       "                       1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
-       "                       1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
-       "                       1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
-       "                       1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
-       "                       1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
-       "                       1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
-       "                       0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
-       "                       1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
-       "                       0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
-       "                       1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
-       "                       0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
-       "                       0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
-       "                       1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
-       "                       1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
-       "                       0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
-       "                       1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
-       "                       1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
-       "                       0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
-       "                       1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
-       "                       1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
-       "                       1.0037141 , 1.0396017 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
-       "                       -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
-       "                        1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
-       "                        2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
-       "                       -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
-       "                       -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
-       "                       -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
-       "                       -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
-       "                       -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
-       "                        3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
-       "                        3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
-       "                        3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
-       "                        2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
-       "                       -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
-       "                       -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
-       "                        1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
-       "                        2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
-       "                       -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
-       "                       -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
-       "                       -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
-       "                       -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
-       "                        1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
-       "                        1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
-       "                       -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
-       "                       -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
-       "                       -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
-       "                        2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
-       "                        2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
-       "                       -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
-       "                       -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
-       "                       -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
-       "                        2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
-       "                       -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
-       "                       -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
-       "                       -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
-       "                        1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
-       "                       -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
-       "                       -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
-       "                       -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
-       "                        7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
-       "                        5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
-       "                        2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
-       "                        3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
-       "                        4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
-       "                       -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
-       "                       -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
-       "                       -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
-       "                        1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
-       "                        -0.01548608,  0.01052339],\n",
-       "                       [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
-       "                        -0.00281928, -0.00167585],\n",
-       "                       [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
-       "                        -0.03134314, -0.02594296],\n",
-       "                       ...,\n",
-       "                       [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
-       "                         0.04625429, -0.03096718],\n",
-       "                       [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
-       "                        -0.01003346, -0.00525536],\n",
-       "                       [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
-       "                        -0.01304786, -0.035545  ]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
-       "                       -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
-       "                        5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
-       "                       -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
-       "                       -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
-       "                       -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
-       "                        9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
-       "                       -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
-       "                        4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
-       "                       -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
-       "                        1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
-       "                       -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
-       "                       -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
-       "                       -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
-       "                       -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
-       "                       -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
-       "                       -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
-       "                       -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
-       "                       -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
-       "                       -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
-       "                        1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
-       "                       -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
-       "                        6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
-       "                        1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
-       "                       -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
-       "                        4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
-       "                       -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
-       "                       -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
-       "                       -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
-       "                       -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
-       "                       -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
-       "                        2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
-       "                       -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
-       "                       -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
-       "                       -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
-       "                       -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
-       "                       -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
-       "                       -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
-       "                       -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
-       "                       -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
-       "                       -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
-       "                        1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
-       "                       -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
-       "                       -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
-       "                       -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
-       "                       -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
-       "                        3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
-       "                       -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
-       "                       -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
-       "                        1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
-       "                       -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
-       "                        1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
-       "                       -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
-       "                       -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
-       "                       -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
-       "                       -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
-       "                       -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
-       "                        5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
-       "                       -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
-       "                       -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
-       "                        1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
-       "                       -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
-       "                       -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
-       "                        5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
-       "                       -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
-       "                       -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
-       "                        1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
-       "                       -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
-       "                       -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
-       "                       -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
-       "                        4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
-       "                       -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
-       "                        6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
-       "                       -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
-       "                       -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
-       "                       -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
-       "                       -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
-       "                       -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
-       "                        2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
-       "                        1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
-       "                        1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
-       "                        2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
-       "                       -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
-       "                        1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
-       "                        1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
-       "                        1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
-       "                       -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
-       "                        3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
-       "                       -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
-       "                       -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
-       "                        3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
-       "                       -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
-       "                       -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
-       "                        7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
-       "                       -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
-       "                        9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
-       "                       -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
-       "                       -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
-       "                       -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
-       "                       -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
-       "                       -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
-       "                       -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
-       "                        1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
-       "                       -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
-       "                       -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
-       "                       -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
-       "                        1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
-       "                       -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
-       "                       -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
-       "                       -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
-       "                       -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
-       "                       -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
-       "                       -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
-       "                        1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
-       "                        7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
-       "                        9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
-       "                        1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
-       "                       -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
-       "                       -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
-       "                        6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
-       "                        1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
-       "                        8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
-       "                       -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
-       "                       -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
-       "                       -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
-       "                        1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
-       "                       -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
-       "                       -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
-       "                        1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
-       "                       -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
-       "                        2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
-       "                       -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
-       "                       -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
-       "                        5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
-       "                        9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
-       "                       -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
-       "                       -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
-       "                       -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
-       "                        1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
-       "                       -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
-       "                        2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
-       "                        2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
-       "                       -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
-       "                       -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
-       "                        9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
-       "                       -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
-       "                        2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
-       "                       -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
-       "                       -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
-       "                       -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
-       "                       -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
-       "                       -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
-       "                        4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
-       "                        1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
-       "                       -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
-       "                       -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
-       "                        5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
-       "                        2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
-       "                       -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
-       "                        9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
-       "                        1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
-       "                       -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
-       "                        5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
-       "                        1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
-       "                       -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
-       "                        6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
-       "                       -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
-       "                        2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
-       "                       -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
-       "                        5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
-       "                       -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
-       "                       -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
-       "                        1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
-       "                        8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
-       "                       -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
-       "                       -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
-       "                       -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
-       "                       -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
-       "                        9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
-       "                       -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
-       "                       -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
-       "                       -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
-       "                       -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
-       "                       -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
-       "                       -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
-       "                        3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
-       "                       -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
-       "                       -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
-       "                       -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
-       "                        1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
-       "                        5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
-       "                       -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
-       "                         0.02154048,  0.01009107],\n",
-       "                       [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
-       "                         0.02311078, -0.03246025],\n",
-       "                       [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
-       "                         0.00015564,  0.01200298],\n",
-       "                       ...,\n",
-       "                       [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
-       "                        -0.00044155, -0.00768675],\n",
-       "                       [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
-       "                         0.00462436,  0.00114423],\n",
-       "                       [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
-       "                         0.0192393 , -0.00191616]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
-       "                        0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
-       "                       -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
-       "                        0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
-       "                       -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
-       "                        0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
-       "                       -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
-       "                        0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
-       "                       -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
-       "                        0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
-       "                        0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
-       "                        0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
-       "                        0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
-       "                       -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
-       "                       -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
-       "                       -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
-       "                        0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
-       "                        0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
-       "                       -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
-       "                       -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
-       "                       -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
-       "                        0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
-       "                       -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
-       "                       -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
-       "                       -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
-       "                        0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
-       "                        0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
-       "                        0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
-       "                        0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
-       "                        0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
-       "                       -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
-       "                        0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
-       "                        0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
-       "                        0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
-       "                       -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
-       "                       -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
-       "                       -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
-       "                        0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
-       "                       -0.01684757, -0.00175023], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (2): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
-       "                       1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
-       "                       1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
-       "                       1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
-       "                       1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
-       "                       1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
-       "                       1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
-       "                       1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
-       "                       1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
-       "                       1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
-       "                       1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
-       "                       1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
-       "                       1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
-       "                       0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
-       "                       1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
-       "                       1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
-       "                       1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
-       "                       1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
-       "                       1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
-       "                       1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
-       "                       1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
-       "                       0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
-       "                       1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
-       "                       1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
-       "                       0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
-       "                       1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
-       "                       1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
-       "                       1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
-       "                       1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
-       "                       1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
-       "                       1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
-       "                       1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
-       "                       1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
-       "                       1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
-       "                       1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
-       "                       0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
-       "                       1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
-       "                       1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
-       "                       1.0048147 , 1.0276642 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
-       "                       -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
-       "                        3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
-       "                        6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
-       "                        6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
-       "                        7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
-       "                       -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
-       "                       -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
-       "                       -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
-       "                       -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
-       "                        1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
-       "                        9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
-       "                        3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
-       "                        9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
-       "                       -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
-       "                        1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
-       "                       -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
-       "                        5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
-       "                       -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
-       "                       -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
-       "                       -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
-       "                       -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
-       "                        8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
-       "                       -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
-       "                       -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
-       "                       -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
-       "                        1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
-       "                       -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
-       "                        8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
-       "                       -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
-       "                        3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
-       "                        2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
-       "                       -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
-       "                       -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
-       "                       -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
-       "                        2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
-       "                       -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
-       "                       -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
-       "                       -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
-       "                        9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
-       "                        7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
-       "                        6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
-       "                        1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
-       "                        9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
-       "                       -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
-       "                       -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
-       "                        2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
-       "                        1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
-       "                       -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
-       "                      [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
-       "                       -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
-       "                      [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
-       "                        1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
-       "                        2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
-       "                      [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
-       "                        9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
-       "                      [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
-       "                        1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
-       "              \n",
-       "                     [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
-       "                       -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
-       "                      [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
-       "                       -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
-       "                      [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
-       "                        3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
-       "                        3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
-       "                      [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
-       "                       -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
-       "                      [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
-       "                        1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
-       "              \n",
-       "                     [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
-       "                        8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
-       "                      [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
-       "                        3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
-       "                      [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
-       "                        5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
-       "                      ...,\n",
-       "                      [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
-       "                        8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
-       "                      [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
-       "                        1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
-       "                      [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
-       "                        2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
-       "                       -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
-       "                      [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
-       "                       -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
-       "                      [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
-       "                       -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
-       "                        3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
-       "                      [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
-       "                       -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
-       "                      [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
-       "                        1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
-       "              \n",
-       "                     [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
-       "                       -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
-       "                      [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
-       "                       -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
-       "                      [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
-       "                       -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
-       "                      ...,\n",
-       "                      [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
-       "                       -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
-       "                      [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
-       "                        1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
-       "                      [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
-       "                       -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
-       "              \n",
-       "                     [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
-       "                       -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
-       "                      [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
-       "                       -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
-       "                      [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
-       "                        7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
-       "                      ...,\n",
-       "                      [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
-       "                        8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
-       "                      [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
-       "                       -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
-       "                      [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
-       "                       -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
-       "                        0.00220658, -0.01070606],\n",
-       "                      [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
-       "                       -0.03522046,  0.00336731],\n",
-       "                      [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
-       "                       -0.02712567, -0.00692069],\n",
-       "                      ...,\n",
-       "                      [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
-       "                        0.00351168, -0.01507777],\n",
-       "                      [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
-       "                        0.01558526, -0.00548268],\n",
-       "                      [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
-       "                       -0.01862272,  0.00915155]],\n",
-       "              \n",
-       "                     [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
-       "                       -0.05951536, -0.01053701],\n",
-       "                      [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
-       "                        0.04455427, -0.03069338],\n",
-       "                      [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
-       "                        0.017482  ,  0.02697489],\n",
-       "                      ...,\n",
-       "                      [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
-       "                        0.04024338, -0.0384163 ],\n",
-       "                      [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
-       "                        0.00090393,  0.01484353],\n",
-       "                      [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
-       "                       -0.01938148, -0.00959876]],\n",
-       "              \n",
-       "                     [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
-       "                        0.01978015,  0.00669768],\n",
-       "                      [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
-       "                       -0.02788975,  0.04276541],\n",
-       "                      [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
-       "                       -0.0080095 , -0.04260714],\n",
-       "                      ...,\n",
-       "                      [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
-       "                        0.02074965, -0.03320842],\n",
-       "                      [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
-       "                        0.00745646, -0.01764916],\n",
-       "                      [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
-       "                        0.02713079, -0.02098218]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
-       "                        0.00773418,  0.0028765 ],\n",
-       "                      [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
-       "                        0.01953993, -0.00055485],\n",
-       "                      [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
-       "                        0.00128055, -0.01244337],\n",
-       "                      ...,\n",
-       "                      [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
-       "                       -0.03074895,  0.02474623],\n",
-       "                      [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
-       "                        0.01141954, -0.00754204],\n",
-       "                      [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
-       "                       -0.02091517,  0.02028517]],\n",
-       "              \n",
-       "                     [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
-       "                        0.00690144, -0.0624721 ],\n",
-       "                      [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
-       "                        0.00672527,  0.04417474],\n",
-       "                      [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
-       "                        0.01875504, -0.01086921],\n",
-       "                      ...,\n",
-       "                      [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
-       "                        0.02842108, -0.02001433],\n",
-       "                      [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
-       "                       -0.03791892,  0.05297501],\n",
-       "                      [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
-       "                       -0.0426075 ,  0.04186616]],\n",
-       "              \n",
-       "                     [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
-       "                       -0.05163334, -0.02703283],\n",
-       "                      [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
-       "                        0.03730771, -0.01465937],\n",
-       "                      [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
-       "                        0.00054794,  0.0272242 ],\n",
-       "                      ...,\n",
-       "                      [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
-       "                        0.0433554 , -0.05423561],\n",
-       "                      [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
-       "                        0.01977414, -0.02690084],\n",
-       "                      [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
-       "                        0.00156149, -0.00067797]]], dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
-       "                        0.0309326 , -0.01376203],\n",
-       "                      [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
-       "                       -0.00639856,  0.01343099],\n",
-       "                      [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
-       "                       -0.02740676,  0.00521749],\n",
-       "                      ...,\n",
-       "                      [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
-       "                       -0.02067197,  0.02215986],\n",
-       "                      [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
-       "                        0.01457549, -0.02071035],\n",
-       "                      [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
-       "                       -0.03342215, -0.00695839]],\n",
-       "              \n",
-       "                     [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
-       "                       -0.01388015, -0.05727502],\n",
-       "                      [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
-       "                        0.02744391, -0.00661899],\n",
-       "                      [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
-       "                        0.00024902,  0.00248078],\n",
-       "                      ...,\n",
-       "                      [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
-       "                       -0.03614037, -0.00738423],\n",
-       "                      [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
-       "                        0.01113886,  0.02501536],\n",
-       "                      [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
-       "                       -0.00661571, -0.03333431]],\n",
-       "              \n",
-       "                     [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
-       "                       -0.00927628,  0.00616596],\n",
-       "                      [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
-       "                        0.00871206, -0.05778804],\n",
-       "                      [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
-       "                        0.02836852, -0.04284712],\n",
-       "                      ...,\n",
-       "                      [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
-       "                       -0.01772935,  0.00616858],\n",
-       "                      [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
-       "                       -0.01613746, -0.03987672],\n",
-       "                      [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
-       "                        0.01645808, -0.03744602]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
-       "                        0.05795961, -0.02054776],\n",
-       "                      [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
-       "                        0.03733749,  0.00026225],\n",
-       "                      [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
-       "                       -0.00190235, -0.00399782],\n",
-       "                      ...,\n",
-       "                      [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
-       "                        0.03480022, -0.01587555],\n",
-       "                      [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
-       "                       -0.02998798, -0.03450729],\n",
-       "                      [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
-       "                        0.00860727,  0.02687717]],\n",
-       "              \n",
-       "                     [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
-       "                        0.04437737, -0.03391603],\n",
-       "                      [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
-       "                        0.03200765,  0.06134365],\n",
-       "                      [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
-       "                       -0.01228396,  0.01346244],\n",
-       "                      ...,\n",
-       "                      [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
-       "                        0.05700811,  0.00101427],\n",
-       "                      [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
-       "                        0.02314062,  0.01037679],\n",
-       "                      [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
-       "                        0.01851269, -0.00904128]],\n",
-       "              \n",
-       "                     [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
-       "                       -0.02365098,  0.01838909],\n",
-       "                      [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
-       "                        0.0036391 , -0.01013733],\n",
-       "                      [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
-       "                       -0.0331871 ,  0.01334788],\n",
-       "                      ...,\n",
-       "                      [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
-       "                       -0.02920299, -0.00677245],\n",
-       "                      [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
-       "                       -0.00327538,  0.00982734],\n",
-       "                      [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
-       "                        0.02140583, -0.05328723]]], dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
-       "                       -0.03472243,  0.01304346],\n",
-       "                      [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
-       "                        0.01706363,  0.0169379 ],\n",
-       "                      [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
-       "                       -0.03150146,  0.02959211],\n",
-       "                      ...,\n",
-       "                      [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
-       "                       -0.0315103 ,  0.04004923],\n",
-       "                      [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
-       "                        0.00454007,  0.01773539],\n",
-       "                      [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
-       "                       -0.00716398,  0.0511735 ]],\n",
-       "              \n",
-       "                     [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
-       "                       -0.01024133, -0.0456225 ],\n",
-       "                      [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
-       "                        0.02512117,  0.02159863],\n",
-       "                      [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
-       "                        0.02156329, -0.00495635],\n",
-       "                      ...,\n",
-       "                      [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
-       "                       -0.03669459, -0.01169418],\n",
-       "                      [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
-       "                        0.01682055,  0.00250151],\n",
-       "                      [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
-       "                       -0.02213018, -0.00444395]],\n",
-       "              \n",
-       "                     [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
-       "                       -0.04441076,  0.02999873],\n",
-       "                      [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
-       "                        0.00269448, -0.02619188],\n",
-       "                      [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
-       "                        0.05100081, -0.00196214],\n",
-       "                      ...,\n",
-       "                      [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
-       "                        0.00641817, -0.00452846],\n",
-       "                      [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
-       "                       -0.0210044 , -0.00747442],\n",
-       "                      [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
-       "                        0.02690425,  0.01807844]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
-       "                        0.00344581, -0.00462025],\n",
-       "                      [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
-       "                       -0.03860147, -0.0139975 ],\n",
-       "                      [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
-       "                        0.03558432, -0.01965741],\n",
-       "                      ...,\n",
-       "                      [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
-       "                        0.02486686, -0.02093521],\n",
-       "                      [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
-       "                       -0.00058519, -0.02835972],\n",
-       "                      [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
-       "                       -0.01785722, -0.04314538]],\n",
-       "              \n",
-       "                     [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
-       "                       -0.02838681, -0.0039719 ],\n",
-       "                      [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
-       "                        0.04732952, -0.02382375],\n",
-       "                      [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
-       "                       -0.00022519, -0.07195798],\n",
-       "                      ...,\n",
-       "                      [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
-       "                        0.04077799, -0.03013852],\n",
-       "                      [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
-       "                        0.01461129,  0.01385937],\n",
-       "                      [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
-       "                        0.03261755,  0.00980215]],\n",
-       "              \n",
-       "                     [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
-       "                        0.02765293, -0.03892074],\n",
-       "                      [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
-       "                       -0.01858809, -0.01930472],\n",
-       "                      [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
-       "                       -0.02284159, -0.00387958],\n",
-       "                      ...,\n",
-       "                      [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
-       "                       -0.02290132, -0.00165214],\n",
-       "                      [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
-       "                        0.00613669, -0.02693458],\n",
-       "                      [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
-       "                        0.01223021, -0.01266978]]], dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
-       "                       -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
-       "                      [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
-       "                        1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
-       "                      [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
-       "                       -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
-       "                      ...,\n",
-       "                      [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
-       "                       -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
-       "                      [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
-       "                        5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
-       "                      [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
-       "                       -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
-       "              \n",
-       "                     [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
-       "                       -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
-       "                      [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
-       "                        1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
-       "                      [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
-       "                       -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
-       "                      ...,\n",
-       "                      [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
-       "                        2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
-       "                      [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
-       "                        4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
-       "                      [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
-       "                       -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
-       "              \n",
-       "                     [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
-       "                       -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
-       "                      [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
-       "                        9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
-       "                      [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
-       "                       -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
-       "                      ...,\n",
-       "                      [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
-       "                       -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
-       "                      [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
-       "                        4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
-       "                      [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
-       "                       -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
-       "                       -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
-       "                      [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
-       "                       -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
-       "                      [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
-       "                       -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
-       "                        3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
-       "                      [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
-       "                       -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
-       "                      [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
-       "                       -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
-       "              \n",
-       "                     [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
-       "                       -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
-       "                      [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
-       "                       -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
-       "                      [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
-       "                       -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
-       "                      ...,\n",
-       "                      [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
-       "                       -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
-       "                      [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
-       "                        9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
-       "                      [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
-       "                       -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
-       "              \n",
-       "                     [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
-       "                        1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
-       "                      [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
-       "                        2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
-       "                      [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
-       "                       -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
-       "                       -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
-       "                      [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
-       "                        2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
-       "                      [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
-       "                        1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
-       "                      -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
-       "                       0.25756484, -0.24836208],\n",
-       "                     [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
-       "                      -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
-       "                      -0.24733196,  0.22796093],\n",
-       "                     [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
-       "                       0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
-       "                       0.23860171,  0.2544802 ],\n",
-       "                     [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
-       "                      -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
-       "                       0.23467393, -0.2685565 ],\n",
-       "                     [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
-       "                       0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
-       "                      -0.19225396, -0.22171909],\n",
-       "                     [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
-       "                       0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
-       "                       0.26866576, -0.2760028 ],\n",
-       "                     [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
-       "                      -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
-       "                      -0.18015033,  0.23062935],\n",
-       "                     [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
-       "                      -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
-       "                      -0.15671346,  0.17406578],\n",
-       "                     [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
-       "                       0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
-       "                      -0.31668597,  0.30160227],\n",
-       "                     [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
-       "                      -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
-       "                       0.25486085,  0.24394904],\n",
-       "                     [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
-       "                      -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
-       "                      -0.11399411, -0.11268682],\n",
-       "                     [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
-       "                      -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
-       "                      -0.20129874, -0.27945545],\n",
-       "                     [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
-       "                      -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
-       "                       0.2934034 ,  0.27473462],\n",
-       "                     [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
-       "                       0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
-       "                      -0.13622668,  0.14556718],\n",
-       "                     [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
-       "                      -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
-       "                      -0.13565728,  0.12855493],\n",
-       "                     [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
-       "                      -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
-       "                      -0.20797041,  0.21802594]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
-       "                       0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
-       "                      -0.05300143,  0.05010788],\n",
-       "                     [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
-       "                       0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
-       "                      -0.00520796,  0.01617681],\n",
-       "                     [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
-       "                      -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
-       "                      -0.00890318, -0.02950851],\n",
-       "                     [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
-       "                       0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
-       "                      -0.06212043,  0.10200542],\n",
-       "                     [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
-       "                       0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
-       "                      -0.05677698, -0.02087275],\n",
-       "                     [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
-       "                      -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
-       "                      -0.07872038,  0.08625405],\n",
-       "                     [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
-       "                       0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
-       "                      -0.048445  , -0.01480543],\n",
-       "                     [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
-       "                      -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
-       "                      -0.00965995,  0.03196143],\n",
-       "                     [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
-       "                      -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
-       "                       0.1498203 , -0.13828841],\n",
-       "                     [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
-       "                       0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
-       "                      -0.04235039, -0.03586181],\n",
-       "                     [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
-       "                       0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
-       "                      -0.02627585, -0.02604468],\n",
-       "                     [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
-       "                       0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
-       "                      -0.05779656,  0.01974249],\n",
-       "                     [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
-       "                       0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
-       "                      -0.05779454, -0.10485042],\n",
-       "                     [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
-       "                      -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
-       "                      -0.04531232,  0.04370135],\n",
-       "                     [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
-       "                      -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
-       "                      -0.03735423,  0.03250728],\n",
-       "                     [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
-       "                      -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
-       "                      -0.02965603,  0.01923521]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
-       "                       -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
-       "                       -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
-       "                       -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
-       "                      [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
-       "                       -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
-       "                        1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
-       "                       -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
-       "                      [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
-       "                        9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
-       "                        1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
-       "                       -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
-       "                      [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
-       "                        5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
-       "                        6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
-       "                        8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
-       "                      [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
-       "                        9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
-       "                        8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
-       "                        3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
-       "                      [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
-       "                       -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
-       "                       -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
-       "                       -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
-       "                      [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
-       "                       -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
-       "                        2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
-       "                        1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
-       "                      [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
-       "                       -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
-       "                        1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
-       "                        3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
-       "                      [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
-       "                        1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
-       "                        4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
-       "                        1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
-       "                      [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
-       "                        1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
-       "                       -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
-       "                        6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
-       "                      [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
-       "                       -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
-       "                       -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
-       "                        3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
-       "                      [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
-       "                       -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
-       "                        4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
-       "                       -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
-       "                      [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
-       "                        1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
-       "                       -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
-       "                       -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
-       "                      [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
-       "                       -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
-       "                        1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
-       "                       -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
-       "                      [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
-       "                        6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
-       "                       -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
-       "                       -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
-       "                      [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
-       "                        1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
-       "                        7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
-       "                       -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
-       "              \n",
-       "                     [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
-       "                        1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
-       "                       -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
-       "                        1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
-       "                      [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
-       "                       -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
-       "                       -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
-       "                       -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
-       "                      [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
-       "                       -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
-       "                        5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
-       "                       -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
-       "                      [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
-       "                        1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
-       "                        1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
-       "                       -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
-       "                      [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
-       "                       -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
-       "                        1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
-       "                        1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
-       "                      [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
-       "                       -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
-       "                        2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
-       "                       -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
-       "                      [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
-       "                       -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
-       "                        3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
-       "                        9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
-       "                      [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
-       "                        2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
-       "                       -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
-       "                       -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
-       "                      [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
-       "                        1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
-       "                        1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
-       "                       -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
-       "                      [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
-       "                        6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
-       "                       -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
-       "                       -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
-       "                      [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
-       "                        2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
-       "                        6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
-       "                       -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
-       "                      [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
-       "                        1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
-       "                        1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
-       "                        5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
-       "                      [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
-       "                        5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
-       "                        8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
-       "                       -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
-       "                      [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
-       "                        6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
-       "                        9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
-       "                        5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
-       "                      [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
-       "                       -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
-       "                       -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
-       "                       -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
-       "                      [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
-       "                        5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
-       "                       -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
-       "                        2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
-       "                       1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
-       "                       1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
-       "                       1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
-       "                       1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
-       "                       1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
-       "                       1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
-       "                       1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
-       "                       1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
-       "                       1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
-       "                       1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
-       "                       1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
-       "                       1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
-       "                       1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
-       "                       1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
-       "                       1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
-       "                       1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
-       "                       1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
-       "                       1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
-       "                       1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
-       "                       1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
-       "                       1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
-       "                       1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
-       "                       1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
-       "                       1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
-       "                       1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
-       "                       1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
-       "                       1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
-       "                       1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
-       "                       1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
-       "                       1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
-       "                       1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
-       "                       1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
-       "                       1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
-       "                       1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
-       "                       1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
-       "                       1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
-       "                       1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
-       "                       1.1591135 , 1.1882532 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
-       "                       -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
-       "                       -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
-       "                        0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
-       "                        0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
-       "                        0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
-       "                       -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
-       "                       -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
-       "                        0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
-       "                       -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
-       "                        0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
-       "                        0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
-       "                       -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
-       "                       -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
-       "                       -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
-       "                        0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
-       "                       -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
-       "                       -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
-       "                       -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
-       "                        0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
-       "                       -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
-       "                        0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
-       "                       -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
-       "                        0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
-       "                       -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
-       "                       -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
-       "                        0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
-       "                        0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
-       "                        0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
-       "                        0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
-       "                       -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
-       "                       -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
-       "                        0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
-       "                        0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
-       "                        0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
-       "                       -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
-       "                       -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
-       "                        0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
-       "                       -0.00908286,  0.01659943], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
-       "                         0.01224422, -0.00072175],\n",
-       "                       [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
-       "                         0.01419899, -0.0136291 ],\n",
-       "                       [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
-       "                        -0.0128223 ,  0.00386102],\n",
-       "                       ...,\n",
-       "                       [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
-       "                        -0.00466742, -0.02921941],\n",
-       "                       [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
-       "                        -0.00111932,  0.02714985],\n",
-       "                       [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
-       "                         0.01096694, -0.02088788]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
-       "                        9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
-       "                       -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
-       "                       -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
-       "                       -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
-       "                       -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
-       "                       -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
-       "                        2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
-       "                       -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
-       "                       -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
-       "                       -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
-       "                       -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
-       "                       -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
-       "                        2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
-       "                       -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
-       "                       -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
-       "                       -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
-       "                       -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
-       "                       -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
-       "                        1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
-       "                       -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
-       "                       -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
-       "                       -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
-       "                       -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
-       "                       -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
-       "                       -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
-       "                       -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
-       "                       -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
-       "                       -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
-       "                       -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
-       "                       -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
-       "                       -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
-       "                       -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
-       "                       -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
-       "                       -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
-       "                       -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
-       "                        1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
-       "                       -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
-       "                       -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
-       "                       -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
-       "                       -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
-       "                        2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
-       "                       -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
-       "                       -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
-       "                       -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
-       "                       -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
-       "                       -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
-       "                        4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
-       "                       -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
-       "                       -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
-       "                        1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
-       "                       -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
-       "                       -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
-       "                       -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
-       "                       -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
-       "                        2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
-       "                       -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
-       "                       -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
-       "                       -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
-       "                       -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
-       "                       -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
-       "                       -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
-       "                       -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
-       "                        1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
-       "                       -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
-       "                       -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
-       "                       -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
-       "                        1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
-       "                       -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
-       "                        5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
-       "                       -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
-       "                        1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
-       "                       -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
-       "                        5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
-       "                       -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
-       "                        4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
-       "                       -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
-       "                       -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
-       "                       -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
-       "                       -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
-       "                       -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
-       "                       -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
-       "                       -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
-       "                       -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
-       "                        6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
-       "                        7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
-       "                       -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
-       "                       -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
-       "                       -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
-       "                        1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
-       "                        7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
-       "                       -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
-       "                       -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
-       "                       -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
-       "                       -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
-       "                       -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
-       "                       -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
-       "                        9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
-       "                       -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
-       "                       -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
-       "                       -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
-       "                       -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
-       "                       -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
-       "                       -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
-       "                       -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
-       "                        2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
-       "                       -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
-       "                       -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
-       "                       -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
-       "                       -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
-       "                       -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
-       "                       -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
-       "                       -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
-       "                       -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
-       "                        1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
-       "                       -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
-       "                        1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
-       "                       -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
-       "                       -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
-       "                        5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
-       "                       -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
-       "                       -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
-       "                       -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
-       "                       -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
-       "                        1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
-       "                        6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
-       "                       -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
-       "                       -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
-       "                       -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
-       "                       -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
-       "                       -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
-       "                       -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
-       "                       -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
-       "                       -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
-       "                       -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
-       "                       -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
-       "                       -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
-       "                       -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
-       "                       -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
-       "                       -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
-       "                       -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
-       "                        1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
-       "                       -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
-       "                       -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
-       "                       -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
-       "                       -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
-       "                        2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
-       "                        2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
-       "                       -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
-       "                        1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
-       "                        2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
-       "                       -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
-       "                        7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
-       "                       -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
-       "                       -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
-       "                        3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
-       "                       -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
-       "                       -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
-       "                        1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
-       "                        8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
-       "                       -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
-       "                       -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
-       "                        3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
-       "                       -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
-       "                       -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
-       "                       -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
-       "                       -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
-       "                       -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
-       "                       -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
-       "                       -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
-       "                       -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
-       "                       -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
-       "                       -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
-       "                       -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
-       "                       -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
-       "                       -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
-       "                       -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
-       "                       -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
-       "                       -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
-       "                       -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
-       "                        1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
-       "                       -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
-       "                       -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
-       "                       -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
-       "                       -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
-       "                       -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
-       "                       -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
-       "                       -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
-       "                       -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
-       "                       -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
-       "                       -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
-       "                        7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
-       "                        -0.00371265,  0.03133386],\n",
-       "                       [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
-       "                         0.01188842, -0.0047044 ],\n",
-       "                       [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
-       "                         0.0055303 ,  0.00608071],\n",
-       "                       ...,\n",
-       "                       [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
-       "                        -0.00608842, -0.00880447],\n",
-       "                       [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
-       "                        -0.0024398 ,  0.01270658],\n",
-       "                       [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
-       "                         0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
-       "                        4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
-       "                       -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
-       "                        6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
-       "                       -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
-       "                        7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
-       "                        1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
-       "                        4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
-       "                       -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
-       "                       -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
-       "                        6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
-       "                        2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
-       "                        8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
-       "                        5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
-       "                       -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
-       "                       -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
-       "                        8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
-       "                       -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
-       "                       -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
-       "                        1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
-       "                        1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
-       "                       -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
-       "                        1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
-       "                       -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
-       "                       -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
-       "                       -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
-       "                       -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
-       "                       -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
-       "                        9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
-       "                        8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
-       "                       -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
-       "                       -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
-       "                       -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
-       "                       -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
-       "                        1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
-       "                       -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
-       "                       -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
-       "                        2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
-       "                        7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
-       "                        1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
-       "                        5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
-       "                       -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
-       "                        2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
-       "                        6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
-       "                       -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
-       "                       -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
-       "                        5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
-       "                        1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (dropout): Dropout(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_kwargs): Dict(\n",
-       "          (name): 'transformer'\n",
-       "          (trainable): True\n",
-       "          (dtype): 'float32'\n",
-       "        )\n",
-       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
-       "        array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
-       "                 -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
-       "                  6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
-       "                 -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
-       "                  7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
-       "                 -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
-       "                 -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
-       "                 -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
-       "                 -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
-       "                  4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
-       "                  1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
-       "                 -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
-       "                  1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
-       "                  2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
-       "                 -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
-       "                 -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
-       "                 -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
-       "                 -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
-       "                  7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
-       "                 -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
-       "                 -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
-       "                 -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
-       "                  1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
-       "                 -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
-       "                 -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
-       "                  1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
-       "                 -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
-       "                 -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
-       "                 -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
-       "                 -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
-       "                 -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
-       "                 -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
-       "                 -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
-       "                  4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
-       "                 -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
-       "                  6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
-       "                 -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
-       "                 -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
-       "                  5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
-       "                 -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
-       "                 -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
-       "                  1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
-       "                  1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
-       "                  1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
-       "                  1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
-       "                 -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
-       "                  3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
-       "                  3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
-       "                  7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
-       "                 -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
-       "                 -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
-       "                  2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
-       "                  9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
-       "                  1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
-       "                 -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
-       "                  1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
-       "                  1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
-       "                 -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
-       "                 -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
-       "                 -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
-       "                  2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
-       "                 -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
-       "                  1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
-       "                  4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
-       "              dtype=float32)>\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (transformer_pre): PrepareTransformerInputs(\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (transformer_post): LastHiddenState(\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_masking_post): SequentialBlock(\n",
-       "        (layers): List(\n",
-       "          (0): TransformerOutputToRagged(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): TransformerInferenceHiddenState(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_masking_pre): SequentialBlock(\n",
-       "        (layers): List(\n",
-       "          (0): SequenceCausalLastInference(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): ExtractMaskFromTargets(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_feature_shapes): Dict()\n",
-       "      (_feature_dtypes): Dict()\n",
-       "    )\n",
-       "  )\n",
-       "  (test_pre): SequencePredictLast(\n",
-       "    (_pre): SequentialBlock(\n",
-       "      (layers): List(\n",
-       "        (0): PrepareFeatures(\n",
-       "          (prepare_lists): PrepareListFeatures()\n",
-       "        )\n",
-       "        (1): PrepareFeatures(\n",
-       "          (prepare_lists): PrepareListFeatures()\n",
-       "        )\n",
-       "      )\n",
-       "      (prepare_lists): PrepareListFeatures()\n",
-       "    )\n",
-       "    (transformer): XLNetBlock(\n",
-       "      (transformer): TFXLNetMainLayer(\n",
-       "        (word_embedding): TFSharedEmbeddings(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (layer): List(\n",
-       "          (0): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0096865 , 1.0156112 , 1.0047966 , 1.0055697 , 1.0296937 ,\n",
-       "                       1.0257732 , 1.0405434 , 1.0163577 , 0.9534506 , 1.0183752 ,\n",
-       "                       1.027002  , 1.0310668 , 1.0172462 , 1.0297366 , 0.9981551 ,\n",
-       "                       0.9956357 , 0.99598515, 0.98782843, 1.0019149 , 1.0021151 ,\n",
-       "                       0.9731392 , 1.0394815 , 1.0419115 , 0.99122995, 0.9815058 ,\n",
-       "                       1.0394274 , 0.95420986, 1.0140872 , 1.0178257 , 1.0153575 ,\n",
-       "                       0.9975193 , 1.0342228 , 0.9783905 , 0.99436754, 1.0437794 ,\n",
-       "                       1.0107313 , 0.9973728 , 1.0330907 , 0.98237264, 1.0205512 ,\n",
-       "                       1.0262665 , 1.057069  , 1.0186831 , 1.0065695 , 1.0573292 ,\n",
-       "                       0.9723765 , 1.0185301 , 0.9783078 , 1.0805802 , 1.0072856 ,\n",
-       "                       1.046347  , 0.9651661 , 1.0125892 , 1.0318221 , 1.0100422 ,\n",
-       "                       0.98210293, 1.0385141 , 1.0028491 , 1.0255537 , 0.9748143 ,\n",
-       "                       1.0136645 , 0.9777978 , 1.0167676 , 0.9867102 , 0.99873364,\n",
-       "                       1.0448893 , 0.9775781 , 1.020897  , 1.0156687 , 1.0070162 ,\n",
-       "                       0.9949982 , 0.9890248 , 1.0294597 , 0.97803134, 0.9471789 ,\n",
-       "                       1.0155677 , 1.0290877 , 1.0084465 , 0.9563062 , 0.98199034,\n",
-       "                       1.0073545 , 0.96270114, 1.0361133 , 1.0037365 , 1.0049076 ,\n",
-       "                       0.9958272 , 1.0042776 , 0.9906111 , 1.0195004 , 0.98845285,\n",
-       "                       1.0099287 , 1.0035214 , 0.9916738 , 0.9639702 , 0.9999653 ,\n",
-       "                       1.0250297 , 1.036368  , 1.0106395 , 0.99796367, 0.9961404 ,\n",
-       "                       0.99974966, 0.98292816, 0.9863248 , 1.0158017 , 0.9997731 ,\n",
-       "                       1.0132103 , 1.0377946 , 1.0157263 , 0.98545736, 1.0048945 ,\n",
-       "                       1.0137354 , 1.0606142 , 0.98290765, 1.0372158 , 0.9920816 ,\n",
-       "                       1.0716795 , 1.0048707 , 1.0199146 , 1.0151896 , 1.0404963 ,\n",
-       "                       1.009017  , 1.0116297 , 1.0267462 , 1.0299959 , 0.9948385 ,\n",
-       "                       1.0162882 , 1.0151713 , 0.9754863 , 1.0113914 , 1.0105838 ,\n",
-       "                       1.018187  , 1.0054674 , 1.0116692 , 1.0358899 , 1.0134988 ,\n",
-       "                       1.0051659 , 0.96874547, 0.99625516, 1.0667871 , 0.97690076,\n",
-       "                       1.0244907 , 0.9951849 , 0.9845813 , 0.9981892 , 1.0345283 ,\n",
-       "                       0.9751158 , 1.0104059 , 1.0049229 , 1.0344111 , 1.0108231 ,\n",
-       "                       1.0074483 , 1.0138446 , 0.97882235, 0.9838856 , 0.9797773 ,\n",
-       "                       1.0448751 , 1.0250106 , 0.9940398 , 1.0415001 , 1.010096  ,\n",
-       "                       0.9959737 , 1.0421578 , 0.99612373, 1.008482  , 1.0168474 ,\n",
-       "                       1.0117303 , 1.0058619 , 1.0206212 , 0.9813257 , 0.97197706,\n",
-       "                       1.0078402 , 1.0188038 , 0.9819965 , 1.0236609 , 0.9870887 ,\n",
-       "                       0.96151966, 1.0474262 , 1.0463325 , 1.0403295 , 1.015123  ,\n",
-       "                       1.0659757 , 0.98529726, 0.96674085, 1.0507897 , 0.9882364 ,\n",
-       "                       1.0611303 , 0.98063576, 1.0268865 , 0.9999817 , 0.95722026,\n",
-       "                       1.0107577 , 1.0596876 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-7.82491732e-03,  1.17448866e-02,  2.86215218e-05,  2.13310122e-02,\n",
-       "                        6.15173485e-03,  4.41838168e-02,  3.52672711e-02,  3.73794995e-02,\n",
-       "                       -2.44397484e-02,  2.63913777e-02, -1.92101207e-02,  1.68179050e-02,\n",
-       "                        1.09884115e-02,  6.81292498e-03, -1.47153009e-02,  1.50813432e-02,\n",
-       "                       -7.20379350e-04,  1.68901030e-02, -4.87045525e-03, -2.82951538e-02,\n",
-       "                       -1.63124632e-02,  2.98008770e-02,  2.43800394e-02, -1.33296829e-02,\n",
-       "                        5.78173622e-03,  8.41072667e-03, -1.16651105e-02,  4.57805302e-03,\n",
-       "                       -1.83029305e-02, -5.12085622e-03,  1.37897804e-02, -2.52885967e-02,\n",
-       "                        1.42254690e-02, -1.35734994e-02,  5.25993854e-02, -1.03573725e-02,\n",
-       "                       -1.14020770e-02,  9.41959268e-04,  3.96627970e-02,  3.15781720e-02,\n",
-       "                       -2.24383790e-02,  1.86920688e-02, -7.97046442e-03, -2.70248894e-02,\n",
-       "                        3.81716304e-02,  1.37069626e-02,  1.00353323e-02, -6.83175074e-03,\n",
-       "                        1.59086268e-02,  4.49690456e-03,  1.20646395e-02, -1.96351800e-02,\n",
-       "                       -1.78791047e-03, -2.16557011e-02,  5.07375300e-02, -2.81546824e-03,\n",
-       "                        5.75071760e-03, -4.75972937e-03,  2.06295010e-02, -7.60992151e-03,\n",
-       "                        1.30418986e-02,  1.54393655e-03,  8.23538285e-03, -9.66409966e-03,\n",
-       "                       -1.59477256e-02, -6.53768145e-03,  2.64450200e-02, -1.21939182e-02,\n",
-       "                       -2.44537480e-02, -1.32514127e-02,  4.72463388e-03, -6.23199455e-02,\n",
-       "                       -9.88284126e-03, -1.01852976e-03,  8.38834606e-03,  5.14619891e-03,\n",
-       "                       -2.43399031e-02, -3.44760045e-02,  3.00469343e-02, -1.12967705e-02,\n",
-       "                       -1.09801833e-02,  2.30398844e-03,  9.92888771e-03, -3.32463742e-03,\n",
-       "                        3.43136154e-02,  3.60682383e-02, -3.67968087e-03,  1.74639337e-02,\n",
-       "                        1.97809841e-02, -2.45451611e-02,  1.67986832e-03,  2.69882358e-03,\n",
-       "                       -2.04691254e-02,  1.29097085e-02, -2.70051602e-02, -4.05806676e-02,\n",
-       "                       -2.31585279e-02,  4.98421630e-03, -4.47037667e-02, -8.27246532e-03,\n",
-       "                       -7.42262113e-04, -3.22355516e-03, -5.14169736e-03,  2.15779357e-02,\n",
-       "                       -1.11045064e-02, -2.59866863e-02,  3.82872522e-02,  1.02850962e-02,\n",
-       "                        3.94708291e-02, -1.60061326e-02,  5.03637968e-03, -2.80841645e-02,\n",
-       "                        7.09669766e-05, -4.67813946e-03, -1.76187896e-05,  1.27147445e-02,\n",
-       "                       -4.22244053e-03,  4.70675938e-02, -1.94290020e-02, -1.37540735e-02,\n",
-       "                        1.72726456e-02, -3.45245190e-02, -1.70333236e-02,  6.64326828e-03,\n",
-       "                       -2.56029330e-02,  3.23950835e-02, -1.42239043e-02, -1.48923928e-02,\n",
-       "                       -1.45010799e-02,  2.70975046e-02,  3.46343732e-03, -1.41528598e-03,\n",
-       "                       -3.36916260e-02,  9.26417951e-03,  1.23228608e-02, -1.04462192e-03,\n",
-       "                       -4.54590917e-02,  6.67568156e-03, -3.63403489e-03, -6.04176559e-02,\n",
-       "                        4.78232652e-03, -3.75009403e-02, -2.47718971e-02, -1.40848383e-03,\n",
-       "                       -5.22233248e-02, -1.13894709e-03, -7.80673418e-03,  5.45118609e-03,\n",
-       "                        1.58662163e-03,  4.10271995e-02,  1.59943216e-02, -3.07554863e-02,\n",
-       "                       -1.69451218e-02, -1.17179407e-02,  2.83574010e-03, -2.54462264e-03,\n",
-       "                       -1.83762833e-02, -1.88289094e-03, -3.40282395e-02,  1.10489558e-02,\n",
-       "                       -1.69651117e-03,  2.39129476e-02,  5.87868970e-03,  9.99899115e-04,\n",
-       "                       -5.21592982e-03,  3.35242087e-03, -1.36361187e-02,  1.72579456e-02,\n",
-       "                        3.15937190e-03,  4.49407697e-02, -1.53307710e-02, -6.07074127e-02,\n",
-       "                        3.54830991e-03, -3.54800522e-02,  9.24525037e-03,  3.27169746e-02,\n",
-       "                       -2.32813358e-02,  3.64200436e-02, -6.11901516e-04, -3.56406788e-03,\n",
-       "                       -1.71201453e-02,  1.83092244e-02,  3.73052014e-03,  4.37969994e-03,\n",
-       "                       -6.32673851e-04,  1.01843160e-02,  2.05308665e-02, -2.17945818e-02,\n",
-       "                        2.46619992e-02, -1.98999303e-03, -6.00536261e-03, -1.18894950e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 0.13197099, -0.12747517, -0.11641935, ..., -0.10109836,\n",
-       "                       -0.12369698, -0.12235671],\n",
-       "                      [-0.01014621,  0.0235051 , -0.0030254 , ..., -0.00358669,\n",
-       "                        0.02513896,  0.02814367],\n",
-       "                      [-0.09935587,  0.12525903, -0.1472499 , ...,  0.11936913,\n",
-       "                        0.13238919, -0.11256532],\n",
-       "                      ...,\n",
-       "                      [-0.12259299,  0.09363633, -0.11260894, ..., -0.07576296,\n",
-       "                       -0.08214942, -0.12410881],\n",
-       "                      [-0.05617683,  0.07248516,  0.05206291, ..., -0.06845155,\n",
-       "                        0.06023917,  0.07214421],\n",
-       "                      [ 0.0586201 ,  0.05837682,  0.05086967, ..., -0.04357501,\n",
-       "                       -0.06763364,  0.05550697]],\n",
-       "              \n",
-       "                     [[-0.13025644,  0.12209299,  0.12323013, ...,  0.12075363,\n",
-       "                        0.09601118,  0.09255827],\n",
-       "                      [ 0.08915628,  0.07382819,  0.07099618, ..., -0.0768103 ,\n",
-       "                        0.0475458 , -0.07742295],\n",
-       "                      [ 0.02872836, -0.06235151,  0.11553147, ..., -0.05319935,\n",
-       "                       -0.05903677,  0.03677876],\n",
-       "                      ...,\n",
-       "                      [ 0.12209638, -0.10401054,  0.13268085, ...,  0.09688871,\n",
-       "                        0.10452053,  0.12009949],\n",
-       "                      [ 0.10607433, -0.09689898, -0.06376923, ...,  0.08841456,\n",
-       "                       -0.10300028, -0.1044563 ],\n",
-       "                      [-0.0914668 , -0.08097184, -0.06668061, ...,  0.09470978,\n",
-       "                        0.06220397, -0.09111064]],\n",
-       "              \n",
-       "                     [[ 0.00058233,  0.02772736,  0.02006061, ...,  0.00036397,\n",
-       "                       -0.02168103,  0.01568287],\n",
-       "                      [ 0.00347983,  0.05903155,  0.02945688, ..., -0.03992393,\n",
-       "                        0.03995887, -0.01548792],\n",
-       "                      [-0.07598231,  0.09135605, -0.10173324, ...,  0.07594861,\n",
-       "                        0.08776175, -0.08319726],\n",
-       "                      ...,\n",
-       "                      [ 0.02002489, -0.0180598 ,  0.02898292, ...,  0.05892501,\n",
-       "                        0.07759988,  0.03240566],\n",
-       "                      [ 0.0311827 , -0.02396172, -0.06914719, ...,  0.02610791,\n",
-       "                       -0.031378  , -0.02404469],\n",
-       "                      [ 0.03871018,  0.03000399,  0.01775593, ..., -0.02095439,\n",
-       "                       -0.02130386,  0.04530597]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.14868718,  0.15100038,  0.16120967, ...,  0.1410322 ,\n",
-       "                        0.15062724,  0.12837149],\n",
-       "                      [ 0.05342876,  0.03672805,  0.0651921 , ..., -0.05224199,\n",
-       "                        0.04776929, -0.08523804],\n",
-       "                      [ 0.05559164, -0.09261318,  0.107168  , ..., -0.08454619,\n",
-       "                       -0.09076596,  0.08992289],\n",
-       "                      ...,\n",
-       "                      [ 0.12589426, -0.11314777,  0.12426507, ...,  0.08356976,\n",
-       "                        0.10044491,  0.12639156],\n",
-       "                      [ 0.06355417, -0.04420558, -0.01156731, ...,  0.05051657,\n",
-       "                       -0.05817353, -0.03657222],\n",
-       "                      [-0.03658766, -0.02278869, -0.04286689, ...,  0.06056577,\n",
-       "                        0.04052235, -0.05048911]],\n",
-       "              \n",
-       "                     [[ 0.00077285, -0.02091939, -0.02179666, ..., -0.02718211,\n",
-       "                       -0.0087873 ,  0.00054167],\n",
-       "                      [-0.03704397, -0.0547603 , -0.04194904, ...,  0.0333349 ,\n",
-       "                       -0.03617225,  0.04379632],\n",
-       "                      [-0.00530401, -0.01642063,  0.00167275, ...,  0.00762442,\n",
-       "                        0.00649468,  0.00245123],\n",
-       "                      ...,\n",
-       "                      [ 0.00478095, -0.01497871, -0.00115625, ..., -0.00592807,\n",
-       "                       -0.01775305,  0.01014595],\n",
-       "                      [ 0.00987361, -0.01282128,  0.00660534, ...,  0.01324118,\n",
-       "                       -0.01851957,  0.00425063],\n",
-       "                      [ 0.01102448,  0.01941266,  0.00894985, ..., -0.02141596,\n",
-       "                        0.00027551,  0.04116082]],\n",
-       "              \n",
-       "                     [[-0.12173207,  0.12579004,  0.12077694, ...,  0.10138801,\n",
-       "                        0.11864589,  0.10221381],\n",
-       "                      [-0.02032071, -0.04710845, -0.0055217 , ...,  0.02435347,\n",
-       "                       -0.05264059,  0.00311177],\n",
-       "                      [-0.00397544, -0.03643695,  0.10240758, ..., -0.02665599,\n",
-       "                       -0.04377652,  0.03546317],\n",
-       "                      ...,\n",
-       "                      [ 0.0769384 , -0.06460597,  0.06227714, ...,  0.0460739 ,\n",
-       "                        0.02304599,  0.05762106],\n",
-       "                      [ 0.06128034, -0.04426205, -0.03479004, ...,  0.042454  ,\n",
-       "                       -0.05019034, -0.04568675],\n",
-       "                      [-0.05524379, -0.06202021, -0.04874821, ...,  0.04686412,\n",
-       "                        0.04290378, -0.0746149 ]]], dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-7.68226478e-03, -2.18245108e-02,  9.52953065e-04, ...,\n",
-       "                       -4.93486365e-03, -1.21793533e-02, -1.26160523e-02],\n",
-       "                      [-7.43793417e-03, -1.20707992e-02, -6.53376943e-03, ...,\n",
-       "                        2.92456280e-02, -3.25674308e-03,  1.21511864e-02],\n",
-       "                      [-1.35852136e-02,  1.87938241e-03, -1.01676602e-02, ...,\n",
-       "                        2.05786899e-02,  1.34299798e-02, -1.43495211e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.58363008e-03, -2.66930517e-02,  1.21933036e-03, ...,\n",
-       "                       -1.62357197e-03, -1.62881166e-02,  3.91136855e-03],\n",
-       "                      [ 2.21821051e-02, -2.58309972e-02, -3.92753910e-03, ...,\n",
-       "                        3.09738088e-02, -2.88884938e-02, -1.72762908e-02],\n",
-       "                      [ 3.42399031e-02,  4.14119326e-02,  3.64699885e-02, ...,\n",
-       "                       -1.62819158e-02, -4.43666801e-02,  4.56376821e-02]],\n",
-       "              \n",
-       "                     [[ 5.56782149e-02, -3.10854726e-02, -4.81049083e-02, ...,\n",
-       "                       -3.98653857e-02, -4.33852226e-02, -3.19941342e-02],\n",
-       "                      [ 4.35383096e-02,  6.49795458e-02,  2.57861316e-02, ...,\n",
-       "                       -5.24633527e-02,  4.20018435e-02, -2.63198018e-02],\n",
-       "                      [-2.54611839e-02,  3.08996532e-02,  1.94905959e-02, ...,\n",
-       "                        3.56150158e-02,  2.95397937e-02, -5.12102805e-02],\n",
-       "                      ...,\n",
-       "                      [-1.21757882e-02,  2.53642909e-02,  7.72101339e-05, ...,\n",
-       "                        1.69840753e-02,  8.38600751e-03, -3.96163156e-03],\n",
-       "                      [-3.53838429e-02,  3.53519283e-02, -3.68676893e-02, ...,\n",
-       "                       -2.53158119e-02,  2.94843595e-02,  1.01852333e-02],\n",
-       "                      [-1.47796969e-03,  6.62320666e-03,  1.49483886e-02, ...,\n",
-       "                       -2.28901999e-03, -6.19671959e-03,  2.28765719e-02]],\n",
-       "              \n",
-       "                     [[ 1.17053827e-02, -2.50329729e-02, -2.19117496e-02, ...,\n",
-       "                       -3.80133167e-02, -2.65514757e-02, -7.27514597e-03],\n",
-       "                      [-1.78928077e-02, -1.69182811e-02,  3.16141150e-03, ...,\n",
-       "                        1.59324165e-02, -1.54765015e-02,  7.96239730e-03],\n",
-       "                      [-1.16813637e-01,  1.03553854e-01, -3.13211568e-02, ...,\n",
-       "                        1.13394342e-01,  1.06305420e-01, -1.10351004e-01],\n",
-       "                      ...,\n",
-       "                      [-2.18171608e-02,  1.39812902e-02, -1.50209228e-02, ...,\n",
-       "                       -3.89618762e-02, -4.92681414e-02, -4.68410878e-03],\n",
-       "                      [ 3.05185374e-02, -3.40098143e-02,  1.13884155e-02, ...,\n",
-       "                        2.97950469e-02, -3.64380144e-02, -1.04942517e-02],\n",
-       "                      [ 3.37445624e-02,  3.35685574e-02,  3.04103903e-02, ...,\n",
-       "                       -2.40385197e-02, -1.90875176e-02,  4.48835082e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 4.42194827e-02, -5.08627035e-02, -3.86995897e-02, ...,\n",
-       "                       -5.09292372e-02, -4.82375398e-02, -4.56841141e-02],\n",
-       "                      [-5.57947196e-02, -4.15932760e-02, -4.83722910e-02, ...,\n",
-       "                        4.65600304e-02, -4.73332889e-02,  3.59597690e-02],\n",
-       "                      [-4.08401750e-02,  2.42609885e-02,  3.46741155e-02, ...,\n",
-       "                        3.86420041e-02,  9.45237931e-03, -3.15879993e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.90185805e-03,  4.53932863e-03,  1.13866816e-03, ...,\n",
-       "                        1.40106957e-02,  1.91211719e-02, -8.73244926e-03],\n",
-       "                      [-6.61803456e-03,  1.66730173e-02, -4.06372882e-02, ...,\n",
-       "                       -2.04761196e-02,  3.11128376e-03,  1.49987591e-02],\n",
-       "                      [ 5.47084492e-03,  6.85863616e-03,  2.34094419e-04, ...,\n",
-       "                        2.92215571e-02,  5.72894141e-03, -1.19066413e-03]],\n",
-       "              \n",
-       "                     [[-4.31554615e-02,  6.39417619e-02,  5.02575226e-02, ...,\n",
-       "                        6.53538033e-02,  5.54384664e-02,  4.20371369e-02],\n",
-       "                      [ 7.17930421e-02,  7.29683116e-02,  6.09961711e-02, ...,\n",
-       "                       -9.18020830e-02,  8.56361762e-02, -6.71873838e-02],\n",
-       "                      [ 5.04934788e-02, -4.51203883e-02,  1.68532617e-02, ...,\n",
-       "                       -3.29082832e-02, -2.49036923e-02,  4.25316319e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.46742398e-02, -3.43895471e-03,  5.69227152e-03, ...,\n",
-       "                       -2.83451960e-03,  1.22414744e-02,  1.62646342e-02],\n",
-       "                      [-6.54027564e-03,  1.52935763e-03, -9.13942046e-03, ...,\n",
-       "                        5.21203212e-04, -2.77781975e-03, -6.00035116e-03],\n",
-       "                      [-5.78916371e-02, -5.93501814e-02, -8.45207125e-02, ...,\n",
-       "                        4.54125442e-02,  6.86786473e-02, -5.92041649e-02]],\n",
-       "              \n",
-       "                     [[ 4.55016270e-02, -1.08455513e-02, -2.07238458e-02, ...,\n",
-       "                       -2.82163695e-02, -2.77336575e-02, -3.14533934e-02],\n",
-       "                      [-2.32847258e-02, -1.02253594e-02, -4.68420517e-03, ...,\n",
-       "                       -5.64631820e-03, -2.67742760e-03,  2.13843174e-02],\n",
-       "                      [-2.86033489e-02,  2.24300697e-02,  4.91300672e-02, ...,\n",
-       "                        1.67693906e-02,  1.43385716e-02, -1.24855936e-02],\n",
-       "                      ...,\n",
-       "                      [-1.71137322e-02,  2.70220917e-02, -2.11604238e-02, ...,\n",
-       "                        1.46003044e-03, -1.17526902e-02, -1.94206256e-02],\n",
-       "                      [-8.81280228e-02,  8.72216299e-02,  4.61283103e-02, ...,\n",
-       "                       -8.43449533e-02,  8.62690136e-02,  8.77720714e-02],\n",
-       "                      [ 6.30031154e-03, -7.33704399e-03, -6.12117175e-04, ...,\n",
-       "                       -7.54373753e-03,  4.23501385e-03, -1.15064979e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 2.1935981e-02, -6.5499027e-03, -1.1758077e-02, ...,\n",
-       "                        1.0016707e-02, -7.5214269e-04, -8.2895309e-03],\n",
-       "                      [-1.8930623e-03,  5.3072263e-02,  1.5991306e-03, ...,\n",
-       "                       -1.8671863e-02,  2.4590937e-02,  2.4358975e-02],\n",
-       "                      [-3.1385969e-02, -2.4187125e-02, -2.3068676e-02, ...,\n",
-       "                       -2.9522167e-03,  2.9918220e-02, -1.3696299e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.5431224e-03, -2.1852402e-03, -3.7807938e-02, ...,\n",
-       "                       -6.8151602e-03, -6.5027446e-02, -2.5086295e-02],\n",
-       "                      [ 1.6041191e-02,  2.7763426e-02,  3.7474424e-02, ...,\n",
-       "                       -2.7330104e-02,  1.4487169e-02, -3.0760732e-02],\n",
-       "                      [ 2.8109785e-02, -2.4505377e-02,  1.8567089e-02, ...,\n",
-       "                        1.4045787e-02, -1.9658763e-02, -1.4424617e-02]],\n",
-       "              \n",
-       "                     [[ 1.8175874e-03, -3.2669792e-04,  1.3658139e-02, ...,\n",
-       "                       -2.3051307e-02, -4.8103187e-02,  1.1212352e-02],\n",
-       "                      [ 8.3899694e-03,  2.7757354e-02,  2.1220583e-03, ...,\n",
-       "                        1.4684557e-02, -9.0189716e-03, -1.3189890e-02],\n",
-       "                      [-4.5665298e-03,  6.0181617e-04, -1.9221806e-03, ...,\n",
-       "                       -2.3014978e-02, -1.6371313e-02, -1.3619252e-02],\n",
-       "                      ...,\n",
-       "                      [-4.4560842e-02,  3.2866932e-02, -1.5270534e-02, ...,\n",
-       "                        4.7959336e-03, -5.0913695e-02, -4.4832855e-02],\n",
-       "                      [-2.6422122e-02,  3.0812582e-05, -1.1526907e-02, ...,\n",
-       "                       -2.9947080e-02,  9.2024086e-03,  4.0475205e-03],\n",
-       "                      [-4.6224903e-02,  4.9632844e-03,  7.3847193e-03, ...,\n",
-       "                       -3.4064833e-02,  1.4927809e-02,  4.0222075e-02]],\n",
-       "              \n",
-       "                     [[-2.4709852e-02,  4.0778179e-02,  2.4162993e-02, ...,\n",
-       "                       -7.7223894e-04,  3.3004548e-02, -2.0557796e-03],\n",
-       "                      [-1.7915012e-02, -4.2037833e-02,  1.7063325e-02, ...,\n",
-       "                        3.9280627e-02, -8.4403567e-03,  1.0665564e-03],\n",
-       "                      [-3.1648852e-02,  1.9462965e-02, -5.1749021e-02, ...,\n",
-       "                        1.2728607e-02, -3.1452335e-02, -1.2489329e-02],\n",
-       "                      ...,\n",
-       "                      [-3.3701200e-02,  1.7426152e-02,  9.4926590e-03, ...,\n",
-       "                        8.8201044e-03, -2.5306158e-02,  5.8208715e-02],\n",
-       "                      [ 1.6601574e-02, -1.4275823e-02, -1.6822370e-02, ...,\n",
-       "                        2.4828877e-02, -8.6892888e-02,  6.4262375e-03],\n",
-       "                      [ 9.1747073e-03, -1.1685979e-02, -3.6286458e-02, ...,\n",
-       "                        1.3910839e-02,  8.0748266e-03,  5.0397436e-03]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-8.4186476e-03, -1.0676413e-02, -1.0499355e-02, ...,\n",
-       "                        1.4340507e-03, -1.5456588e-02,  8.2055647e-03],\n",
-       "                      [ 2.0050982e-02,  3.9912029e-03, -4.9512643e-02, ...,\n",
-       "                       -8.0223344e-03,  8.9866975e-03, -1.7193217e-02],\n",
-       "                      [-6.1425157e-03, -2.3025960e-02, -2.0697471e-02, ...,\n",
-       "                       -1.3261255e-03, -4.4959106e-02,  1.4391148e-02],\n",
-       "                      ...,\n",
-       "                      [-3.9630566e-02,  3.4915447e-02, -2.5021229e-02, ...,\n",
-       "                        1.9735634e-02,  2.4283731e-02,  8.8040769e-02],\n",
-       "                      [ 7.1960546e-02, -3.2245752e-03, -3.1058513e-02, ...,\n",
-       "                        9.1858171e-03,  2.0113736e-02,  3.4582719e-02],\n",
-       "                      [ 3.5613827e-02,  5.2555401e-02,  2.0199718e-02, ...,\n",
-       "                        2.9557332e-02, -2.4335729e-03, -4.0849347e-02]],\n",
-       "              \n",
-       "                     [[ 2.5519842e-02,  3.4481441e-03,  7.5593151e-02, ...,\n",
-       "                       -1.0861231e-02,  1.3288087e-02, -2.1570064e-03],\n",
-       "                      [ 2.5518127e-02,  1.7416688e-02,  3.1182369e-02, ...,\n",
-       "                       -2.4906599e-03,  1.5789142e-02,  8.4962416e-03],\n",
-       "                      [ 1.0470330e-02, -9.0953298e-03,  2.6568150e-02, ...,\n",
-       "                       -7.2716870e-03,  3.2788489e-02,  1.6375307e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.4019187e-03, -1.6473958e-02, -2.0612899e-02, ...,\n",
-       "                       -9.2589520e-03,  1.1356876e-02,  2.7651006e-02],\n",
-       "                      [ 1.5268090e-02,  8.3070369e-03,  8.7036788e-03, ...,\n",
-       "                        7.7237003e-03,  7.3369341e-03,  2.1213299e-02],\n",
-       "                      [-4.1702986e-02, -1.6719857e-02, -4.1055001e-02, ...,\n",
-       "                        2.3881821e-03, -1.4375679e-02, -5.3924224e-03]],\n",
-       "              \n",
-       "                     [[-3.8459700e-02,  2.7399434e-02, -2.4477823e-02, ...,\n",
-       "                       -2.8467288e-02,  4.2125326e-02, -2.4380080e-02],\n",
-       "                      [-8.2248095e-03,  9.4872410e-04,  3.1300731e-02, ...,\n",
-       "                        1.2363208e-02,  1.0819474e-02, -1.3270676e-03],\n",
-       "                      [-1.3462825e-02,  1.1999467e-02, -5.2867807e-03, ...,\n",
-       "                        5.4947892e-03,  8.4173940e-03, -1.5731178e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.6192739e-02, -2.1830844e-03, -2.2746423e-02, ...,\n",
-       "                        9.5197987e-03, -3.5458893e-02,  4.4134855e-02],\n",
-       "                      [ 2.5184005e-02,  5.4138672e-02,  1.3472022e-02, ...,\n",
-       "                       -4.9555153e-02, -3.8271304e-02, -1.1530346e-03],\n",
-       "                      [-1.5618957e-02, -2.3071036e-02,  6.0527720e-02, ...,\n",
-       "                        3.5982949e-03,  7.5665531e-03,  1.2278390e-03]]], dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 3.4558035e-02, -8.1972502e-02, -5.6760699e-02, ...,\n",
-       "                        1.3388766e-02, -3.4494880e-03, -3.5049133e-02],\n",
-       "                      [ 1.4903742e-02,  5.1185200e-03,  2.7732885e-02, ...,\n",
-       "                        1.5752869e-02, -1.6719513e-04, -3.2367846e-03],\n",
-       "                      [-3.1436101e-02, -3.6930665e-02, -8.4744478e-03, ...,\n",
-       "                        1.1747203e-02, -2.9896988e-02, -2.3278227e-02],\n",
-       "                      ...,\n",
-       "                      [-4.4766188e-02, -2.9565591e-02,  2.2492344e-02, ...,\n",
-       "                        2.3775781e-03, -2.3477389e-03, -6.3977003e-02],\n",
-       "                      [-7.9599731e-03,  2.3603067e-02,  4.2270361e-03, ...,\n",
-       "                       -7.9671228e-03, -8.4035415e-03,  3.3881772e-02],\n",
-       "                      [ 2.3896206e-02,  5.2790940e-02, -1.9825008e-02, ...,\n",
-       "                        3.4890927e-02, -1.6427118e-02, -1.3012372e-02]],\n",
-       "              \n",
-       "                     [[ 5.6012128e-02,  3.9354857e-02, -3.7056282e-02, ...,\n",
-       "                       -9.5437188e-04, -1.5669381e-02,  3.6575941e-03],\n",
-       "                      [ 1.0521270e-02,  2.4832424e-02,  1.0564318e-02, ...,\n",
-       "                        4.5253210e-02, -3.8564852e-03, -5.6845369e-03],\n",
-       "                      [ 1.9469766e-02, -2.4921447e-03,  1.7152067e-02, ...,\n",
-       "                       -2.1238407e-02, -3.6743453e-03, -1.8075069e-02],\n",
-       "                      ...,\n",
-       "                      [-9.2346454e-04,  3.8158480e-02,  1.6374113e-02, ...,\n",
-       "                        1.5201136e-02,  1.3134910e-02,  6.9975376e-02],\n",
-       "                      [-2.4690642e-03,  7.7905254e-03, -2.1554135e-02, ...,\n",
-       "                       -3.9290216e-02, -4.0334272e-03, -1.0793213e-03],\n",
-       "                      [-1.6754212e-02,  4.7255494e-02, -3.2703991e-03, ...,\n",
-       "                       -3.3369564e-02, -6.0496605e-03,  2.2343850e-02]],\n",
-       "              \n",
-       "                     [[ 3.5791956e-02,  3.4770794e-02,  3.7401337e-02, ...,\n",
-       "                       -4.1593242e-02, -6.7334563e-02,  7.5647626e-03],\n",
-       "                      [-5.5595064e-03, -8.0210743e-03,  3.9957631e-02, ...,\n",
-       "                        1.7897096e-02,  2.1864127e-02,  4.6957351e-02],\n",
-       "                      [-3.2328866e-02,  1.4444360e-02, -6.8443440e-02, ...,\n",
-       "                        8.4532611e-03, -8.8195698e-03,  4.0060803e-03],\n",
-       "                      ...,\n",
-       "                      [-4.3917345e-03,  2.9294435e-02, -3.1086415e-02, ...,\n",
-       "                        3.7843004e-02,  2.0224897e-02, -9.4552422e-03],\n",
-       "                      [ 2.0256270e-02,  1.3612260e-02, -1.5514650e-02, ...,\n",
-       "                        1.6113631e-02, -7.7781297e-02,  4.5416508e-02],\n",
-       "                      [-1.7456708e-02, -3.6125474e-02, -4.8056237e-02, ...,\n",
-       "                        5.6817383e-03,  3.8123481e-02,  5.2873984e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-6.6254879e-03, -7.6921834e-03,  1.3759888e-02, ...,\n",
-       "                       -9.2632528e-03,  1.1549971e-02, -3.9358933e-02],\n",
-       "                      [ 1.4470451e-02, -4.2162634e-02,  1.2218486e-02, ...,\n",
-       "                        3.8135707e-02, -3.5125174e-02, -5.4729473e-02],\n",
-       "                      [ 8.0266371e-03,  8.7115606e-03,  5.6484030e-03, ...,\n",
-       "                        5.8089835e-03, -3.3503424e-02, -1.6844057e-02],\n",
-       "                      ...,\n",
-       "                      [-1.0784569e-02,  4.7266845e-02,  5.7555144e-03, ...,\n",
-       "                       -3.6044452e-02,  3.6605848e-03, -1.0359948e-02],\n",
-       "                      [ 1.3826589e-02, -2.8647454e-03,  2.5868905e-03, ...,\n",
-       "                        1.7714184e-02, -3.6266308e-02, -7.1984404e-03],\n",
-       "                      [-2.3084020e-02,  2.2052677e-02, -2.8226499e-02, ...,\n",
-       "                        5.0086722e-02,  1.3204823e-02,  2.3870086e-03]],\n",
-       "              \n",
-       "                     [[-2.8730264e-02, -5.2821822e-03, -9.1553042e-03, ...,\n",
-       "                        2.0447128e-02, -4.7689546e-02,  7.5007915e-03],\n",
-       "                      [-2.3960054e-02, -1.7942205e-02, -1.8274842e-02, ...,\n",
-       "                       -8.0897193e-03, -2.3875024e-02, -1.4553037e-02],\n",
-       "                      [ 1.7344387e-02, -2.0958342e-02,  1.4681545e-02, ...,\n",
-       "                       -2.2302102e-02,  2.8698748e-02, -9.1849379e-03],\n",
-       "                      ...,\n",
-       "                      [-1.8616887e-02,  4.7773879e-02,  2.2023235e-02, ...,\n",
-       "                       -3.4950111e-02, -3.9754819e-02,  3.8231418e-03],\n",
-       "                      [-2.6944082e-03, -2.2312153e-02,  6.6401674e-03, ...,\n",
-       "                        1.6840655e-02,  8.5035199e-04, -5.4619432e-04],\n",
-       "                      [ 7.5075715e-03,  2.7986795e-02, -2.1366706e-02, ...,\n",
-       "                        2.1776481e-02, -3.2732459e-03,  1.7775759e-02]],\n",
-       "              \n",
-       "                     [[ 1.7125104e-02,  1.5672354e-02, -1.9874105e-02, ...,\n",
-       "                       -8.8345492e-03, -6.3765082e-03,  3.8814072e-02],\n",
-       "                      [-1.5929114e-02,  4.0955096e-02,  1.8637704e-02, ...,\n",
-       "                       -4.3095972e-02,  5.2418392e-03, -8.3040539e-03],\n",
-       "                      [-2.5189148e-02,  1.6959475e-02,  2.0080386e-03, ...,\n",
-       "                        1.7491961e-06, -9.4349124e-03, -8.7165339e-03],\n",
-       "                      ...,\n",
-       "                      [-1.5020861e-02,  9.1123721e-03, -1.2940341e-02, ...,\n",
-       "                        2.1540092e-02, -4.8262607e-02,  9.3815767e-04],\n",
-       "                      [-2.0072028e-02, -3.4046255e-03, -5.2106597e-02, ...,\n",
-       "                       -1.6067177e-02,  4.7017686e-02,  5.2954555e-03],\n",
-       "                      [ 2.7247950e-02, -4.7271936e-03,  3.7552916e-02, ...,\n",
-       "                       -2.3428671e-02,  2.5338635e-02, -7.1937349e-03]]], dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 3.38747710e-01, -3.52252215e-01, -3.31913650e-01, ...,\n",
-       "                       -3.32406253e-01, -3.55435610e-01, -3.70355815e-01],\n",
-       "                      [-2.57155180e-01, -2.27717996e-01, -2.49137834e-01, ...,\n",
-       "                        2.52328873e-01, -2.27478221e-01,  2.74260193e-01],\n",
-       "                      [-8.42767283e-02,  1.40244111e-01, -1.90620884e-01, ...,\n",
-       "                        1.35595366e-01,  1.51921853e-01, -1.44851297e-01],\n",
-       "                      ...,\n",
-       "                      [-3.61111403e-01,  3.26171756e-01, -3.69894445e-01, ...,\n",
-       "                       -3.20066005e-01, -3.35039854e-01, -3.68529588e-01],\n",
-       "                      [-3.09335232e-01,  3.14753771e-01,  3.20735216e-01, ...,\n",
-       "                       -3.20914894e-01,  2.96445906e-01,  3.30758154e-01],\n",
-       "                      [ 2.12763369e-01,  2.13694334e-01,  2.23139688e-01, ...,\n",
-       "                       -2.15393752e-01, -2.09336951e-01,  2.45465353e-01]],\n",
-       "              \n",
-       "                     [[ 3.20928752e-01, -2.94858247e-01, -3.14106166e-01, ...,\n",
-       "                       -3.04256856e-01, -3.10841501e-01, -3.13560814e-01],\n",
-       "                      [-1.59511223e-01, -1.70894131e-01, -1.87740177e-01, ...,\n",
-       "                        1.77135527e-01, -1.74924582e-01,  1.93289027e-01],\n",
-       "                      [-1.41561776e-02,  7.51935318e-02, -1.13328710e-01, ...,\n",
-       "                        7.05530196e-02,  7.44837448e-02, -9.26639065e-02],\n",
-       "                      ...,\n",
-       "                      [-3.11126292e-01,  3.01795095e-01, -2.95113325e-01, ...,\n",
-       "                       -2.81502992e-01, -2.79552013e-01, -2.94877738e-01],\n",
-       "                      [-2.69808233e-01,  2.46761337e-01,  2.37797692e-01, ...,\n",
-       "                       -2.70426184e-01,  2.29666948e-01,  2.68684894e-01],\n",
-       "                      [ 1.52459487e-01,  1.56723812e-01,  1.87588021e-01, ...,\n",
-       "                       -1.80774227e-01, -1.40872061e-01,  1.92230970e-01]],\n",
-       "              \n",
-       "                     [[ 2.41833925e-01, -2.19398052e-01, -2.29633719e-01, ...,\n",
-       "                       -2.45204329e-01, -2.58349568e-01, -2.36624196e-01],\n",
-       "                      [-1.61572859e-01, -1.48212776e-01, -1.40561178e-01, ...,\n",
-       "                        1.41516134e-01, -1.32165566e-01,  1.68426186e-01],\n",
-       "                      [ 8.09539296e-03,  3.59569304e-02, -1.04876310e-01, ...,\n",
-       "                        1.58704743e-02,  3.60485800e-02, -2.96752173e-02],\n",
-       "                      ...,\n",
-       "                      [-2.84408092e-01,  2.66984671e-01, -2.70496905e-01, ...,\n",
-       "                       -2.57439345e-01, -2.39332542e-01, -2.48226896e-01],\n",
-       "                      [-2.43775159e-01,  2.12252900e-01,  2.33381778e-01, ...,\n",
-       "                       -2.36481652e-01,  2.05704838e-01,  2.55553931e-01],\n",
-       "                      [ 1.28472507e-01,  1.25496238e-01,  1.41340226e-01, ...,\n",
-       "                       -1.42667651e-01, -1.06452040e-01,  1.74517885e-01]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 1.18206572e-02, -1.62823759e-02, -1.13886865e-02, ...,\n",
-       "                       -2.72346847e-02, -1.76205616e-02, -2.58876495e-02],\n",
-       "                      [-2.48313230e-02, -2.81952247e-02, -2.03840993e-02, ...,\n",
-       "                        1.74464211e-02, -2.47928239e-02,  7.45158223e-03],\n",
-       "                      [-9.72194225e-03,  1.15375388e-02, -2.56897379e-02, ...,\n",
-       "                        3.06775165e-03,  1.03304058e-03,  2.59421836e-03],\n",
-       "                      ...,\n",
-       "                      [-1.75657198e-02,  2.45507937e-02, -2.12120879e-02, ...,\n",
-       "                       -2.06703022e-02, -1.25367660e-02, -1.66469775e-02],\n",
-       "                      [ 1.25846509e-02, -3.71760194e-04,  4.49259765e-03, ...,\n",
-       "                       -6.64241752e-03, -9.64385923e-03,  1.40363369e-02],\n",
-       "                      [ 1.40556889e-02,  1.82496123e-02, -2.07160265e-04, ...,\n",
-       "                        2.71461118e-04, -8.42160638e-03,  1.78159462e-04]],\n",
-       "              \n",
-       "                     [[-2.22503580e-02,  3.15407328e-02,  2.72795390e-02, ...,\n",
-       "                        2.50934549e-02,  3.40305455e-02,  3.39202397e-02],\n",
-       "                      [ 1.35067226e-02,  2.46651508e-02,  1.00027593e-02, ...,\n",
-       "                       -2.89492551e-02,  1.59373134e-02, -1.51004000e-02],\n",
-       "                      [ 2.25287229e-02, -2.75186412e-02,  1.70388352e-02, ...,\n",
-       "                       -1.08766872e-02, -1.86810736e-03,  1.76009033e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.43293003e-02, -1.70654003e-02,  1.25767132e-02, ...,\n",
-       "                        8.09190446e-04,  1.77804064e-02,  3.09025124e-02],\n",
-       "                      [ 2.47963774e-03, -2.90571898e-03, -1.11264074e-02, ...,\n",
-       "                        5.73507929e-03, -9.31484811e-03,  3.93942930e-03],\n",
-       "                      [-8.68460070e-03,  2.89098313e-03, -2.11955067e-02, ...,\n",
-       "                        1.13159856e-02,  2.39106696e-02,  7.65375979e-03]],\n",
-       "              \n",
-       "                     [[ 5.94059192e-02, -3.16232182e-02, -4.25012745e-02, ...,\n",
-       "                       -4.64180671e-02, -4.29909676e-02, -5.43733463e-02],\n",
-       "                      [ 1.00171287e-02,  2.10887119e-02,  3.75756249e-02, ...,\n",
-       "                       -3.65561582e-02,  1.15714017e-02, -2.47725472e-02],\n",
-       "                      [-2.42286529e-02,  6.19218312e-03,  2.24700011e-02, ...,\n",
-       "                       -6.83102896e-03, -3.37700290e-03,  4.71456256e-03],\n",
-       "                      ...,\n",
-       "                      [ 1.35079189e-03,  1.35904429e-02, -1.20370295e-02, ...,\n",
-       "                       -6.28219778e-03, -2.10926589e-02, -1.22290216e-02],\n",
-       "                      [-3.48052718e-02,  4.21429165e-02, -4.43692598e-03, ...,\n",
-       "                       -3.98377255e-02,  2.64684688e-02,  3.64753604e-02],\n",
-       "                      [-1.27071552e-02, -1.95082203e-02, -4.74442961e-03, ...,\n",
-       "                       -5.14267990e-03,  1.45630771e-02, -1.93668939e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-0.37346047,  0.37250054,  0.3907651 ,  0.38277408,  0.35741195,\n",
-       "                       0.38824454, -0.36372992,  0.37197435,  0.37989146,  0.37147713,\n",
-       "                       0.37070706,  0.35559788],\n",
-       "                     [ 0.06975611,  0.07689185,  0.07228172, -0.0722764 ,  0.08365536,\n",
-       "                       0.06633326,  0.07988963, -0.06860004, -0.0622002 , -0.06374823,\n",
-       "                       0.0776644 , -0.07216003],\n",
-       "                     [ 0.22928728, -0.17429328,  0.09725206, -0.10263564,  0.06898433,\n",
-       "                       0.13690604,  0.12810868,  0.06246556, -0.14255992, -0.169385  ,\n",
-       "                      -0.16261199,  0.16058037],\n",
-       "                     [-0.19601476, -0.19472797,  0.20428008,  0.20267177,  0.18398753,\n",
-       "                      -0.20113394, -0.20566987, -0.21166983,  0.2035028 ,  0.20144981,\n",
-       "                      -0.20082442, -0.21696469],\n",
-       "                     [-0.27361003,  0.26644444, -0.25823227,  0.27925947,  0.27160206,\n",
-       "                      -0.26067862,  0.270715  ,  0.2698397 ,  0.25726572,  0.25751913,\n",
-       "                       0.24445428,  0.27668142],\n",
-       "                     [-0.30897072,  0.29939672,  0.29147333, -0.29759452,  0.31223142,\n",
-       "                      -0.270364  , -0.3067601 , -0.30111563,  0.31529158,  0.31188235,\n",
-       "                      -0.29824102, -0.31075856],\n",
-       "                     [-0.39532706,  0.38874832, -0.39142627, -0.3886234 , -0.38499188,\n",
-       "                      -0.39429832,  0.3917147 , -0.37333068, -0.38008067,  0.38615617,\n",
-       "                      -0.38081092, -0.39247522],\n",
-       "                     [ 0.2290351 , -0.23079675,  0.23544736,  0.21889143,  0.21990548,\n",
-       "                       0.2233682 ,  0.20575589,  0.23166424,  0.21836095, -0.22710325,\n",
-       "                      -0.23054157, -0.22402786],\n",
-       "                     [ 0.31462234, -0.33824605,  0.34888077,  0.35271886, -0.35531324,\n",
-       "                       0.34544548,  0.3376679 ,  0.3411377 , -0.335851  , -0.3580673 ,\n",
-       "                       0.33728704, -0.35013184],\n",
-       "                     [ 0.28967628, -0.28802818,  0.29017174,  0.29956898,  0.29380292,\n",
-       "                      -0.28895316, -0.28544793, -0.292428  , -0.2882111 , -0.28964576,\n",
-       "                       0.29340708,  0.2927634 ],\n",
-       "                     [-0.3411081 ,  0.35220957,  0.33591127,  0.3540816 ,  0.3503263 ,\n",
-       "                       0.33048216, -0.34637055,  0.32407367, -0.32438353,  0.3529602 ,\n",
-       "                      -0.35776407, -0.33932883],\n",
-       "                     [-0.37032467, -0.36812896, -0.39068243, -0.37287602, -0.3721401 ,\n",
-       "                      -0.38354024, -0.3734055 ,  0.4030942 ,  0.37940052,  0.34137526,\n",
-       "                       0.3707558 , -0.3911879 ],\n",
-       "                     [-0.13885868, -0.07073349, -0.1152356 ,  0.11311065,  0.05461643,\n",
-       "                      -0.10694173, -0.11797076, -0.11336335, -0.10334926,  0.07756246,\n",
-       "                       0.12306441,  0.10861646],\n",
-       "                     [ 0.37422347, -0.37067974,  0.382464  ,  0.37082633, -0.37619328,\n",
-       "                       0.3700374 , -0.3775079 ,  0.369756  , -0.37618253,  0.3672613 ,\n",
-       "                       0.39667937,  0.38020003],\n",
-       "                     [ 0.30904633, -0.29189512, -0.31334987, -0.29167944, -0.31405964,\n",
-       "                      -0.28898612,  0.2923434 ,  0.30766192, -0.28573954,  0.2949249 ,\n",
-       "                      -0.29706052, -0.31455588],\n",
-       "                     [-0.1166977 , -0.09267767, -0.05344103,  0.20561723,  0.10361944,\n",
-       "                      -0.09597252, -0.11368804,  0.07374494,  0.0895981 ,  0.07990894,\n",
-       "                       0.10973554, -0.05313613]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.02704959,  0.02960145,  0.00974695,  0.04531549, -0.0031658 ,\n",
-       "                       0.00470249,  0.01819921,  0.01747902, -0.01848036,  0.01552903,\n",
-       "                      -0.01393487, -0.01188555],\n",
-       "                     [ 0.01097695,  0.05780909,  0.03655621, -0.02134515,  0.02434413,\n",
-       "                       0.01866677,  0.01949622, -0.01921584, -0.02902889, -0.03096105,\n",
-       "                      -0.00388369, -0.01727411],\n",
-       "                     [-0.13681485,  0.12220031,  0.07949183,  0.09230855,  0.1203526 ,\n",
-       "                       0.13126956,  0.00737103,  0.04044032,  0.13264242,  0.16051207,\n",
-       "                       0.12056144, -0.15448172],\n",
-       "                     [-0.0837023 , -0.07897114,  0.10445868,  0.09328368,  0.09781563,\n",
-       "                      -0.07505805, -0.07814854, -0.10116591,  0.11434007,  0.1039658 ,\n",
-       "                      -0.11767636, -0.10332035],\n",
-       "                     [-0.10378645,  0.07673589, -0.09991188,  0.09477323,  0.06950181,\n",
-       "                      -0.09498238,  0.11595728,  0.0818167 ,  0.09139769,  0.0908348 ,\n",
-       "                       0.09375099,  0.09006778],\n",
-       "                     [-0.07200488,  0.11039345,  0.08926661, -0.10429743,  0.10531338,\n",
-       "                      -0.13036886, -0.09732608, -0.09588756,  0.10691873,  0.069135  ,\n",
-       "                      -0.07627007, -0.09407212],\n",
-       "                     [-0.06730818,  0.0776398 , -0.07527994, -0.08677673, -0.07946926,\n",
-       "                      -0.09474014,  0.08316637, -0.10570373, -0.10657622,  0.06857269,\n",
-       "                      -0.09510182, -0.07508499],\n",
-       "                     [ 0.1272688 , -0.11871098,  0.11859486,  0.12073346,  0.15111545,\n",
-       "                       0.12950963,  0.14462966,  0.13155784,  0.14078899, -0.11819407,\n",
-       "                      -0.11242524, -0.12828752],\n",
-       "                     [ 0.10244546, -0.08281285,  0.12599547,  0.12352646, -0.08232223,\n",
-       "                       0.06362368,  0.11628054,  0.08121345, -0.09381401, -0.1017275 ,\n",
-       "                       0.1122688 , -0.0936246 ],\n",
-       "                     [ 0.06956902, -0.07016854,  0.07207846,  0.08185235,  0.07348476,\n",
-       "                      -0.07044141, -0.10483667, -0.06724312, -0.07413901, -0.08150072,\n",
-       "                       0.08842966,  0.07842822],\n",
-       "                     [-0.04902898,  0.08947049,  0.08037989,  0.06807387,  0.06831039,\n",
-       "                       0.05044439, -0.10449897,  0.05752584, -0.07764029,  0.09782408,\n",
-       "                      -0.11914786, -0.05327021],\n",
-       "                     [-0.12178728, -0.11973495, -0.08931118, -0.11802942, -0.12639539,\n",
-       "                      -0.11765701, -0.12301757,  0.09002702,  0.1099894 ,  0.10601277,\n",
-       "                       0.12055498, -0.11824764],\n",
-       "                     [-0.13013272, -0.11347592, -0.09590119, -0.04600147,  0.12135155,\n",
-       "                       0.15605357,  0.14212345,  0.12413304, -0.11489878,  0.10646964,\n",
-       "                       0.11570179,  0.13300925],\n",
-       "                     [ 0.07953635, -0.05358617,  0.06076136,  0.03857687, -0.08740384,\n",
-       "                       0.09580573, -0.11589228,  0.0530813 , -0.1262951 ,  0.12957394,\n",
-       "                       0.14165434,  0.07234689],\n",
-       "                     [ 0.00606865, -0.02865283, -0.11514653, -0.03855786, -0.03915163,\n",
-       "                      -0.04437567,  0.05897851,  0.07263748, -0.07599041,  0.02014523,\n",
-       "                      -0.0326612 , -0.05191225],\n",
-       "                     [-0.02615956,  0.00082458,  0.02219692, -0.05171375,  0.05447492,\n",
-       "                       0.06622541, -0.02247809,  0.05879986,  0.01587608,  0.09542776,\n",
-       "                       0.03455094,  0.00630618]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 6.92830980e-03, -1.91756096e-02,  2.75568711e-03,\n",
-       "                       -3.27806338e-03,  1.43940898e-03,  8.38105334e-04,\n",
-       "                       -3.17075802e-03,  4.66949260e-03,  1.29533000e-02,\n",
-       "                        6.37105154e-03, -1.42557546e-02, -1.56039307e-02],\n",
-       "                      [-5.24008507e-03,  5.83554897e-03,  5.28278288e-05,\n",
-       "                        4.41452535e-03, -5.96833415e-03,  1.97377801e-02,\n",
-       "                        6.63386192e-03, -2.70113046e-03, -1.09323701e-02,\n",
-       "                        9.40765906e-03,  8.52212869e-03,  1.27732707e-02],\n",
-       "                      [-5.47951926e-03, -6.30398374e-03, -1.88931415e-03,\n",
-       "                       -3.82627477e-03, -1.03170695e-02, -1.62921418e-02,\n",
-       "                        4.42750810e-04,  1.83049624e-03, -4.93631791e-03,\n",
-       "                        7.21302396e-03,  7.58891134e-03, -1.35076218e-04],\n",
-       "                      [-5.04115736e-03,  1.51219219e-03, -6.07239781e-04,\n",
-       "                        2.68661021e-03, -5.32567082e-03, -3.63681372e-03,\n",
-       "                       -1.47937634e-03,  1.41145978e-02,  2.44664983e-03,\n",
-       "                       -5.30580198e-03, -3.58004036e-04,  2.21235352e-03],\n",
-       "                      [ 6.63177948e-03,  7.20981602e-03, -3.34927929e-03,\n",
-       "                        1.57867242e-02, -1.06790895e-02,  4.76629054e-03,\n",
-       "                        7.01094558e-03,  2.55558966e-03,  7.01530662e-04,\n",
-       "                        1.96129885e-02, -3.47580039e-03, -4.14459547e-03],\n",
-       "                      [ 6.63608173e-03,  8.13847221e-03,  1.26328748e-02,\n",
-       "                        2.93742679e-03, -1.11131268e-02, -7.77325965e-03,\n",
-       "                       -4.69116308e-03,  5.06164553e-03,  3.31703736e-03,\n",
-       "                       -1.49551462e-02,  9.83483810e-03, -1.38381887e-02],\n",
-       "                      [-3.13207647e-03, -1.20346656e-03, -7.14240829e-04,\n",
-       "                        3.38257337e-03, -1.21155549e-02,  1.77355520e-02,\n",
-       "                       -3.78817786e-03,  4.60852869e-03,  1.38352753e-03,\n",
-       "                       -1.96225918e-03, -1.54525228e-03,  7.27207214e-03],\n",
-       "                      [-3.52438586e-03, -6.73636142e-03,  5.56267146e-03,\n",
-       "                        2.76904181e-03,  6.09423034e-03,  1.14140250e-02,\n",
-       "                        4.51555708e-03, -4.84374259e-03, -1.83317550e-02,\n",
-       "                        4.07868624e-03, -3.52122728e-03, -9.72320139e-03],\n",
-       "                      [-2.92871613e-03, -1.36275403e-03, -1.12001523e-02,\n",
-       "                        4.15648054e-03,  7.76014291e-04, -1.56104667e-04,\n",
-       "                        1.66957453e-02, -1.34978080e-02,  2.59425724e-03,\n",
-       "                        1.50437718e-02, -8.85847863e-03, -2.27058597e-04],\n",
-       "                      [-8.55377130e-03, -9.33228992e-04,  1.05962288e-02,\n",
-       "                        3.73685732e-03, -1.46479104e-02, -2.58295774e-03,\n",
-       "                       -3.21662426e-03,  8.22018459e-03, -6.62432238e-03,\n",
-       "                        5.34095289e-03, -1.60596147e-02,  1.89380813e-02],\n",
-       "                      [-3.03876121e-03, -9.45069920e-03, -1.05521297e-02,\n",
-       "                        7.64022162e-03,  1.24902911e-02,  1.32637294e-02,\n",
-       "                        1.30019896e-02,  4.11059591e-04,  1.14952738e-03,\n",
-       "                       -9.66892054e-04,  3.42015829e-03,  1.51099060e-02],\n",
-       "                      [ 9.67782363e-03,  1.13166841e-02,  1.24215791e-02,\n",
-       "                       -8.93799961e-03, -7.70286610e-03, -2.62288231e-04,\n",
-       "                       -1.25799067e-02, -2.34622974e-03, -1.37031516e-02,\n",
-       "                        7.25830998e-03,  3.48036946e-03,  8.82094260e-03],\n",
-       "                      [ 1.93330422e-02,  1.02664595e-02, -1.38892382e-02,\n",
-       "                       -4.28191572e-03, -1.71063491e-03,  2.99980305e-03,\n",
-       "                       -5.98835619e-03,  1.08044026e-02, -7.76272779e-03,\n",
-       "                       -8.02671071e-04,  6.56242890e-04,  5.36549371e-03],\n",
-       "                      [-1.00181112e-02, -1.59210637e-02, -8.38838704e-03,\n",
-       "                        4.86764265e-03, -1.79222059e-02,  3.47048254e-03,\n",
-       "                       -1.83304548e-02, -4.92845010e-03,  3.65043571e-03,\n",
-       "                        2.54237023e-03, -1.38753336e-02, -1.58153474e-02],\n",
-       "                      [-8.56178463e-04,  9.56560671e-03,  1.43071841e-02,\n",
-       "                        1.44142760e-02, -2.97402544e-03, -1.18832442e-03,\n",
-       "                        1.54865775e-02,  1.16390940e-02,  1.89097952e-02,\n",
-       "                       -1.21177221e-03, -1.57084243e-04,  1.07376613e-02],\n",
-       "                      [-1.82367454e-03,  2.21159682e-03, -3.59512377e-03,\n",
-       "                       -8.40761815e-04,  1.32178674e-02,  1.82569642e-02,\n",
-       "                       -6.03301101e-04, -5.30507276e-03,  1.09237980e-03,\n",
-       "                        1.43965418e-02, -8.32139887e-03,  4.34310501e-03]],\n",
-       "              \n",
-       "                     [[ 6.01352192e-03,  1.62515126e-03, -8.11410509e-03,\n",
-       "                       -6.86854636e-03, -6.21954072e-03, -1.00534027e-02,\n",
-       "                       -9.41478554e-03,  1.14045916e-02, -8.45357031e-03,\n",
-       "                       -2.07757368e-03, -1.37391184e-02, -4.38201270e-04],\n",
-       "                      [ 1.43431686e-02,  9.54034738e-03, -5.74651361e-03,\n",
-       "                        1.66568439e-04, -9.06508230e-03,  1.37667237e-02,\n",
-       "                        5.70776733e-03,  7.25450320e-03,  2.16021363e-05,\n",
-       "                       -5.47146471e-03, -6.25970587e-03, -3.44276486e-05],\n",
-       "                      [ 1.48183517e-02, -6.20869081e-03,  8.95625539e-03,\n",
-       "                       -9.27595049e-03, -1.83574425e-03,  2.49610422e-03,\n",
-       "                       -1.22964820e-02, -1.36222802e-02,  9.96832177e-03,\n",
-       "                       -1.19066276e-02, -7.85201322e-03, -7.36650918e-03],\n",
-       "                      [ 1.08605931e-02,  8.69748648e-03,  3.17076640e-03,\n",
-       "                       -8.42709839e-03, -1.57119669e-02, -1.40998634e-02,\n",
-       "                       -1.92577229e-03, -1.10639585e-02,  2.97422521e-03,\n",
-       "                       -1.15742059e-02,  1.63778535e-03,  9.25154146e-03],\n",
-       "                      [-4.83186170e-03, -1.48528756e-03, -6.04805397e-03,\n",
-       "                       -3.92264035e-03, -1.23623861e-02, -1.09437210e-02,\n",
-       "                       -1.96897378e-03, -6.39349746e-04,  4.56422335e-03,\n",
-       "                        1.13997767e-02,  4.75200778e-03,  7.35366624e-03],\n",
-       "                      [ 1.12166035e-03,  5.45477308e-03, -4.32490138e-03,\n",
-       "                        7.68110855e-03,  5.26575372e-04, -1.25714159e-02,\n",
-       "                       -3.77588673e-03, -1.14904623e-02,  5.39455842e-03,\n",
-       "                       -4.17162431e-03, -9.63759050e-03,  6.98206900e-03],\n",
-       "                      [ 1.96407139e-02,  1.29522821e-02, -4.13262704e-03,\n",
-       "                       -1.44496374e-02, -1.74691656e-03,  4.20865184e-03,\n",
-       "                       -1.11074317e-02,  2.64025060e-03,  1.47657096e-02,\n",
-       "                        1.23877609e-02, -2.37396988e-03, -2.93945603e-04],\n",
-       "                      [ 9.71211493e-03,  7.94302672e-03, -1.58977136e-02,\n",
-       "                       -2.76799593e-03, -5.05202217e-03, -9.76024102e-03,\n",
-       "                        1.49224671e-02, -2.76487437e-03, -7.95385893e-03,\n",
-       "                        2.28416151e-03,  8.62033758e-03, -8.03585071e-03],\n",
-       "                      [ 3.58456396e-03, -7.30898371e-03,  9.81163792e-03,\n",
-       "                        4.00693668e-03, -4.60821064e-03,  1.25033129e-02,\n",
-       "                       -7.10477680e-03, -1.87209854e-03, -1.86083149e-02,\n",
-       "                        1.13955196e-02,  3.02036270e-03,  1.86788588e-04],\n",
-       "                      [-7.39630545e-03, -3.24555533e-03, -6.80431770e-03,\n",
-       "                       -8.48817732e-03,  5.44536347e-03, -6.96611451e-03,\n",
-       "                        9.67375468e-03, -1.37550682e-02,  1.24195861e-02,\n",
-       "                       -5.80661930e-03, -8.72546516e-04, -7.87189323e-03],\n",
-       "                      [ 8.17328412e-03,  7.39035569e-03, -1.30875167e-02,\n",
-       "                        2.98461039e-03,  6.12607226e-03, -3.95844551e-03,\n",
-       "                       -4.27940721e-03, -5.09019941e-03,  9.36426129e-03,\n",
-       "                        2.17008332e-04,  9.72903217e-05,  1.09658763e-03],\n",
-       "                      [-2.05476675e-03, -6.83139719e-04, -1.89697009e-03,\n",
-       "                        1.14962943e-02,  7.20423460e-03,  1.39946323e-02,\n",
-       "                        1.07048582e-02, -6.42856723e-03, -5.79423131e-03,\n",
-       "                        1.23832189e-02, -7.18865078e-03,  1.38154672e-02],\n",
-       "                      [-1.16244173e-02,  2.05547106e-03,  9.67404339e-03,\n",
-       "                       -2.89262226e-03,  4.12624609e-03, -5.93587151e-03,\n",
-       "                       -2.06840690e-03, -3.01017077e-03, -2.76456797e-03,\n",
-       "                        1.60607956e-02,  6.62347884e-04,  8.47559713e-04],\n",
-       "                      [-1.70180527e-03,  1.20092779e-02,  1.39846858e-02,\n",
-       "                        1.87645629e-02,  3.60628217e-03, -1.03077693e-02,\n",
-       "                       -3.90187866e-04,  7.14913337e-03, -1.36780804e-02,\n",
-       "                        5.78043377e-03, -6.81782607e-03,  1.98236643e-03],\n",
-       "                      [-1.06942744e-05,  8.62054899e-03,  1.27580739e-03,\n",
-       "                        1.30051170e-02,  9.38100927e-03,  1.04769599e-02,\n",
-       "                       -1.51592251e-02,  4.45883907e-03, -2.48641265e-03,\n",
-       "                       -9.80575942e-03, -1.38305919e-03,  7.01086072e-04],\n",
-       "                      [-1.26606720e-02, -3.34550929e-03,  7.17817014e-03,\n",
-       "                       -5.29674813e-03, -5.15649887e-03,  1.82109885e-02,\n",
-       "                       -1.07203387e-02, -1.93532417e-03,  1.92708708e-02,\n",
-       "                       -2.18898524e-03, -1.15341763e-03,  5.27428696e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0379136 , 1.0441794 , 1.0282985 , 1.0300299 , 1.0497706 ,\n",
-       "                       1.0531958 , 1.0634363 , 1.0370939 , 0.97006977, 1.0404468 ,\n",
-       "                       1.0234414 , 1.0444169 , 1.016389  , 1.0636438 , 1.0183308 ,\n",
-       "                       1.0163523 , 1.0237935 , 1.0102572 , 1.017104  , 1.0147494 ,\n",
-       "                       0.99349844, 1.0893013 , 1.0604361 , 1.0118674 , 0.9946299 ,\n",
-       "                       1.0589231 , 0.96908444, 1.0519881 , 1.0418249 , 1.0343268 ,\n",
-       "                       1.0077153 , 1.0598058 , 1.0031377 , 1.0132179 , 1.0564682 ,\n",
-       "                       1.041158  , 1.0136855 , 1.0441773 , 1.0054435 , 1.0305686 ,\n",
-       "                       1.0372981 , 1.0551254 , 1.0419368 , 1.0237669 , 1.0648608 ,\n",
-       "                       0.9859887 , 1.0432713 , 0.992015  , 1.1081674 , 1.025258  ,\n",
-       "                       1.0640073 , 0.9919767 , 1.037432  , 1.045794  , 1.0330951 ,\n",
-       "                       1.0092527 , 1.0409127 , 1.0085353 , 1.0442319 , 0.99454325,\n",
-       "                       1.0313554 , 0.9998184 , 1.0338147 , 1.0133076 , 1.0005473 ,\n",
-       "                       1.0445073 , 0.9953769 , 1.0483619 , 1.0318505 , 1.0313379 ,\n",
-       "                       1.0211383 , 1.0175071 , 1.0427523 , 1.0183996 , 0.9728469 ,\n",
-       "                       1.0114137 , 1.0472678 , 1.0251293 , 0.9770746 , 0.9970426 ,\n",
-       "                       1.0212427 , 0.98568845, 1.0427203 , 1.0072767 , 1.0269111 ,\n",
-       "                       1.0186119 , 1.0205765 , 1.0080137 , 1.0402783 , 1.0055327 ,\n",
-       "                       1.0263197 , 1.011762  , 0.9943807 , 0.97362155, 1.0212238 ,\n",
-       "                       1.0551015 , 1.0413436 , 1.0225371 , 1.023914  , 1.0239075 ,\n",
-       "                       1.0248226 , 1.003032  , 1.0068135 , 1.0337843 , 1.0179108 ,\n",
-       "                       1.0402795 , 1.0472751 , 1.0388597 , 1.0047336 , 1.0077493 ,\n",
-       "                       1.0392822 , 1.0628049 , 1.0116792 , 1.0418272 , 1.0172741 ,\n",
-       "                       1.0869482 , 1.0238012 , 1.0404757 , 1.020196  , 1.0563034 ,\n",
-       "                       1.0301741 , 1.0372742 , 1.0494779 , 1.0387503 , 1.0062817 ,\n",
-       "                       1.036887  , 1.0277052 , 1.0019801 , 1.0326486 , 1.0132165 ,\n",
-       "                       1.0250734 , 1.0243207 , 1.0353926 , 1.0375448 , 1.0284371 ,\n",
-       "                       1.0279876 , 0.99319714, 1.0211086 , 1.0743738 , 1.0147293 ,\n",
-       "                       1.0403458 , 1.0320364 , 1.0163448 , 1.0086402 , 1.0668328 ,\n",
-       "                       0.9998712 , 1.0195384 , 1.0262363 , 1.0496252 , 1.0281852 ,\n",
-       "                       1.0143824 , 1.0131371 , 1.0147458 , 1.0153939 , 1.002428  ,\n",
-       "                       1.056508  , 1.0375637 , 1.0288135 , 1.0562717 , 1.0206257 ,\n",
-       "                       1.0170466 , 1.0470344 , 1.002945  , 1.0293034 , 1.0338373 ,\n",
-       "                       1.0267545 , 1.0173984 , 1.0321118 , 1.0058153 , 0.9890631 ,\n",
-       "                       1.0418366 , 1.0471084 , 1.000789  , 1.0489752 , 1.011835  ,\n",
-       "                       0.9849616 , 1.0682111 , 1.067782  , 1.0667943 , 1.0295328 ,\n",
-       "                       1.0648719 , 1.0072024 , 0.9829486 , 1.0619706 , 1.0037473 ,\n",
-       "                       1.082172  , 1.010111  , 1.0480627 , 1.0180742 , 0.9671146 ,\n",
-       "                       1.0334889 , 1.0734522 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.03437203,  0.05411717, -0.00093422,  0.07425429,  0.00736092,\n",
-       "                        0.11286709,  0.08217093,  0.10122769, -0.00846282,  0.07157344,\n",
-       "                       -0.05813284,  0.0454649 ,  0.02636049,  0.01231122, -0.01111093,\n",
-       "                        0.02166114, -0.00972567,  0.04515434, -0.02430212, -0.06187151,\n",
-       "                       -0.0381984 ,  0.12061298,  0.03548988,  0.04389787,  0.01137476,\n",
-       "                       -0.01380202, -0.01825755,  0.05156202, -0.07114236, -0.06216979,\n",
-       "                        0.05545609, -0.10842778, -0.02432374, -0.0060093 ,  0.03022136,\n",
-       "                       -0.00703949, -0.05032122,  0.03701846,  0.09063955,  0.0639187 ,\n",
-       "                       -0.06332532,  0.01021036, -0.01898221, -0.04602299,  0.0845482 ,\n",
-       "                        0.05272847,  0.04152165,  0.01572024,  0.0124438 ,  0.05633397,\n",
-       "                        0.04072688, -0.03248957,  0.01956263, -0.0594047 ,  0.10126687,\n",
-       "                        0.00997925, -0.03006562, -0.04982569, -0.01702003, -0.02220715,\n",
-       "                        0.0006759 , -0.00147267,  0.04309494, -0.02025459,  0.00237669,\n",
-       "                       -0.06119434,  0.06299283, -0.06787321, -0.04963538, -0.0285508 ,\n",
-       "                       -0.02115064, -0.10439228, -0.06280854, -0.02150689, -0.0087407 ,\n",
-       "                       -0.01133496, -0.05820064, -0.08399351, -0.00220406, -0.05374147,\n",
-       "                       -0.0084166 ,  0.02683506,  0.04995831, -0.04991116,  0.07378334,\n",
-       "                        0.08771855,  0.03559894,  0.04174837,  0.04986992, -0.07031458,\n",
-       "                       -0.04099566, -0.04586393, -0.04894676,  0.0452544 , -0.02901545,\n",
-       "                       -0.10887094, -0.06665391,  0.03176153, -0.07640473, -0.03704071,\n",
-       "                       -0.04572297,  0.04151303,  0.01618064,  0.05201699, -0.00598239,\n",
-       "                        0.00666859,  0.08898568,  0.04584971,  0.0312804 , -0.03132866,\n",
-       "                       -0.0066317 , -0.08492738, -0.01431052, -0.00116769,  0.02063407,\n",
-       "                        0.01227299,  0.0105425 ,  0.08164899, -0.07966555, -0.04573595,\n",
-       "                       -0.01493629, -0.06341923, -0.04441991,  0.0393707 , -0.07018486,\n",
-       "                        0.07571896,  0.01216909, -0.00044978, -0.03057809,  0.0612355 ,\n",
-       "                        0.00077983, -0.05563807, -0.10079593, -0.02951942,  0.08499622,\n",
-       "                        0.05386762, -0.06173644,  0.02608804,  0.03443969, -0.09064186,\n",
-       "                        0.0389196 , -0.07017983, -0.07173447, -0.03408198, -0.14056338,\n",
-       "                        0.01628569,  0.0268622 , -0.02475309, -0.01677444,  0.09604827,\n",
-       "                        0.02439231, -0.07903947, -0.01104342,  0.03859695,  0.00089456,\n",
-       "                       -0.00089233, -0.01680246,  0.04352787, -0.06731002, -0.02855014,\n",
-       "                        0.01585025,  0.08303126, -0.00780854,  0.01587816,  0.03930783,\n",
-       "                       -0.00718552, -0.04818885,  0.06294682,  0.02472097,  0.05720899,\n",
-       "                       -0.05400939, -0.12929952,  0.0696051 , -0.07063247,  0.02118118,\n",
-       "                        0.01647286, -0.05759468,  0.02665047, -0.00792585,  0.02348289,\n",
-       "                       -0.06724691,  0.04548252, -0.00882383,  0.02862583, -0.01595174,\n",
-       "                        0.01586641,  0.05275662, -0.05550243,  0.0463598 ,  0.02981136,\n",
-       "                       -0.02164674,  0.01641086], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[-8.7349433e-03,  1.4380505e-02, -1.8403217e-02, ...,\n",
-       "                        -1.0560994e-02, -9.8247221e-03,  3.8896156e-03],\n",
-       "                       [ 1.9794539e-02,  1.9119913e-02,  1.4701257e-03, ...,\n",
-       "                        -4.6915929e-03, -3.0279700e-03, -1.0369797e-02],\n",
-       "                       [ 2.2685794e-02, -1.1076587e-02,  2.1512689e-02, ...,\n",
-       "                        -9.3838237e-03, -1.5814094e-02,  1.2654760e-02],\n",
-       "                       ...,\n",
-       "                       [ 3.3880837e-02,  3.2771707e-02, -1.5241621e-02, ...,\n",
-       "                        -1.8954782e-02,  9.0328557e-03, -3.8368767e-03],\n",
-       "                       [ 3.4973539e-02,  7.7871266e-03, -1.2202458e-03, ...,\n",
-       "                        -1.1511138e-03, -6.7377505e-03,  1.4305637e-02],\n",
-       "                       [-5.9016286e-03,  3.0963784e-05,  4.6348446e-03, ...,\n",
-       "                        -9.7331330e-03, -9.1186212e-03, -4.0696082e-03]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-2.48988252e-03,  6.58203196e-03,  2.64750496e-02, -9.87772923e-03,\n",
-       "                        2.49165483e-02, -1.96873536e-03,  1.37765594e-02,  7.72468513e-03,\n",
-       "                       -1.52863916e-02, -3.80107411e-03, -1.07600829e-02,  3.38745862e-03,\n",
-       "                        1.53273325e-02, -1.19882887e-02,  5.40436618e-03,  2.19404721e-03,\n",
-       "                        2.60363892e-03,  4.26220242e-03,  2.08184868e-02,  1.22082443e-03,\n",
-       "                        1.71658359e-02,  1.61883030e-02, -1.14635089e-02,  5.40121691e-03,\n",
-       "                        5.44373458e-03,  1.77889038e-02, -5.69844851e-03,  3.11289355e-03,\n",
-       "                        1.31086144e-03, -2.80178571e-03, -3.88765195e-03, -7.58470781e-03,\n",
-       "                        1.36907427e-02,  6.45675417e-03,  2.65116412e-02,  1.58387870e-02,\n",
-       "                        1.02622213e-03,  8.93147197e-03,  2.47938349e-03, -1.99125968e-02,\n",
-       "                        2.70253327e-03, -8.58191773e-03,  1.80017427e-02,  7.24463165e-03,\n",
-       "                        9.56831127e-03,  2.74193045e-02,  1.74996982e-04, -7.05160759e-03,\n",
-       "                        2.38953568e-02,  6.30728249e-03,  2.40837168e-02,  2.80947471e-03,\n",
-       "                       -3.53719312e-04,  9.57346521e-03,  8.25208705e-03, -7.29673402e-03,\n",
-       "                       -1.38636009e-04,  4.73524723e-03,  1.45125119e-02, -1.18843932e-02,\n",
-       "                        2.11451408e-02,  2.68677399e-02,  6.18341239e-03, -6.16480596e-03,\n",
-       "                        8.34112335e-03,  4.47013066e-04, -3.05860024e-03, -9.32345074e-03,\n",
-       "                       -2.02798527e-02,  4.69490094e-03, -1.61361136e-02,  4.10681684e-03,\n",
-       "                        1.28482804e-02,  4.03247820e-03,  9.11187287e-03,  1.24189295e-02,\n",
-       "                        1.27137732e-02,  1.99195351e-02,  1.41281942e-02,  1.55547783e-02,\n",
-       "                       -1.07247783e-02,  7.05646677e-03, -1.81599881e-03,  9.94427502e-03,\n",
-       "                       -1.99749079e-02,  1.62800290e-02, -2.43168436e-02, -5.13213966e-03,\n",
-       "                        2.00566128e-02,  2.97278585e-03, -7.79949501e-03,  5.56347473e-03,\n",
-       "                        7.97226559e-03,  1.98900197e-02,  1.38633540e-02, -6.45546895e-03,\n",
-       "                        1.38269775e-02, -4.40548221e-03,  8.96899216e-03, -9.38130263e-03,\n",
-       "                       -5.15380700e-04, -2.41116602e-02,  1.52957542e-02,  1.24769453e-02,\n",
-       "                        6.28790632e-03,  5.41381445e-03,  8.18936341e-03,  1.51892807e-02,\n",
-       "                        1.11203482e-02, -4.50899825e-03, -1.44061493e-02, -2.26674285e-02,\n",
-       "                        3.10106426e-02,  2.14485563e-02,  1.03145291e-03,  1.03755528e-03,\n",
-       "                       -6.20614132e-03, -1.09666409e-02,  8.96500424e-03,  4.80830902e-03,\n",
-       "                       -7.33030727e-03,  6.25240244e-03, -9.21320729e-03,  6.77359942e-03,\n",
-       "                       -5.92142157e-03,  7.07151927e-03, -1.22634443e-02,  7.56111601e-03,\n",
-       "                        1.75033621e-02,  3.66673758e-03, -1.09480824e-02, -2.01308820e-03,\n",
-       "                       -5.92470681e-03,  2.63545513e-02,  1.99394524e-02, -4.43834206e-03,\n",
-       "                       -1.58517994e-02,  8.09705444e-03,  2.51221992e-02,  4.07058606e-03,\n",
-       "                        6.50535512e-04,  1.90216992e-02,  3.51213152e-03,  2.78372392e-02,\n",
-       "                        7.65756797e-03, -1.04906233e-02,  3.58949192e-02,  3.21657956e-02,\n",
-       "                        2.03288458e-02,  1.17718976e-03, -9.83388349e-03,  1.01774065e-02,\n",
-       "                        2.34259386e-02,  4.87414235e-03,  6.19397615e-04, -4.87850979e-03,\n",
-       "                        6.10528141e-03,  1.96777973e-02, -4.79804678e-03,  3.20185535e-03,\n",
-       "                        1.08724358e-02,  2.48679845e-03,  1.04768435e-02,  1.50508005e-02,\n",
-       "                       -2.04404313e-02,  8.93356372e-03,  3.47434171e-03,  5.11971477e-04,\n",
-       "                        1.05784240e-03,  1.37281520e-02, -1.45734590e-03,  2.07192767e-02,\n",
-       "                        4.55050357e-03,  1.93968341e-02, -6.62009744e-03, -1.97455566e-02,\n",
-       "                       -9.91699193e-03,  9.87284351e-03, -1.31387112e-03,  7.16593955e-03,\n",
-       "                        5.01987198e-03, -3.20331450e-03,  7.43561145e-03, -4.62228339e-03,\n",
-       "                        2.19815858e-02, -7.85590988e-03, -7.33769266e-03,  3.23284529e-02,\n",
-       "                        1.56302769e-02, -6.01055566e-03, -1.79425776e-02,  4.41427436e-03,\n",
-       "                       -2.07814388e-02, -6.37243548e-03, -2.83799577e-03,  5.25688939e-03,\n",
-       "                       -8.77550617e-03,  2.46067587e-02,  1.07153840e-02, -1.32179158e-02,\n",
-       "                        2.18793386e-04,  4.08930471e-03,  8.53821915e-03, -1.09368330e-02,\n",
-       "                        3.37619870e-03, -1.35646742e-02,  7.72237452e-03,  1.29408129e-02,\n",
-       "                       -1.53529420e-02, -9.28624719e-03, -1.21006239e-02,  1.54590970e-02,\n",
-       "                        2.16401205e-03,  1.04791895e-02,  5.56073198e-03,  1.37728415e-02,\n",
-       "                        1.07720145e-04,  5.28109539e-03,  1.08795706e-02, -2.47379648e-04,\n",
-       "                        3.11144930e-03, -5.73526463e-03, -5.40194986e-03,  3.43680102e-03,\n",
-       "                        6.36896258e-03,  7.28031015e-03, -7.98167568e-03,  1.46586786e-03,\n",
-       "                       -4.85271215e-03, -4.15298855e-03, -6.27090875e-03,  1.09038770e-03,\n",
-       "                        8.43349565e-03,  2.42243428e-02,  9.21734143e-03,  5.99709572e-03,\n",
-       "                        2.16714274e-02,  4.89401957e-03,  6.89816754e-03,  2.22890708e-03,\n",
-       "                        1.38756193e-04, -7.83765409e-03, -2.66516721e-03,  1.58686489e-02,\n",
-       "                        2.09250636e-02,  3.43082286e-03,  1.25900293e-02,  1.66601446e-02,\n",
-       "                        9.77085717e-03, -1.23784819e-03,  1.31846191e-02, -3.35601717e-03,\n",
-       "                        4.42687795e-03,  2.11218297e-02, -5.38641028e-03,  8.89543328e-04,\n",
-       "                        2.86574606e-02,  1.23174144e-02, -1.08364336e-02,  3.73017695e-03,\n",
-       "                       -2.47203764e-02, -4.73329565e-03,  1.31655764e-02, -6.27630530e-03,\n",
-       "                       -7.01956218e-03, -8.57002940e-03, -8.32860358e-03,  1.99239105e-02,\n",
-       "                       -4.52243630e-03,  2.18442213e-02,  2.81916582e-03,  1.94954555e-02,\n",
-       "                        1.47216879e-02,  1.14483749e-02,  9.50219017e-03,  1.93981547e-02,\n",
-       "                        1.98315759e-03,  1.17658265e-03,  8.65733624e-03, -3.82895139e-03,\n",
-       "                       -1.39406975e-02, -2.18565037e-04, -1.54521847e-02,  2.31004003e-02,\n",
-       "                       -1.43806655e-02,  1.07183242e-02, -4.23687370e-03, -8.43816437e-03,\n",
-       "                        9.99713037e-03,  1.01488354e-02,  4.36592521e-03,  4.06254223e-03,\n",
-       "                       -2.29024841e-03,  7.33671652e-04, -3.99773149e-03, -5.26233064e-03,\n",
-       "                       -5.51322009e-04,  1.99180748e-03,  2.11210479e-03, -1.47964270e-03,\n",
-       "                        1.85694620e-02, -7.09511619e-03,  1.37091307e-02,  1.77404413e-03,\n",
-       "                        3.04236803e-02,  1.63651221e-02,  1.01921558e-02,  2.87520438e-02,\n",
-       "                       -1.26408609e-02,  2.02455334e-02, -2.59257131e-03,  1.92524418e-02,\n",
-       "                       -1.05007098e-03,  8.00876645e-04, -1.07963514e-02, -1.00983009e-02,\n",
-       "                        3.39633483e-03, -5.70922857e-03,  2.50644069e-02,  1.06100654e-02,\n",
-       "                        7.89651275e-03,  9.92713869e-03, -4.23942460e-03,  8.36806651e-03,\n",
-       "                        1.46544278e-02,  9.03321337e-03, -1.24921696e-02, -4.23613749e-03,\n",
-       "                        8.12342390e-03,  2.61031408e-02,  8.26149434e-03,  1.93422493e-02,\n",
-       "                        1.59315765e-02,  4.34346450e-03, -1.92503165e-02,  7.93095399e-03,\n",
-       "                       -1.98308267e-02,  2.23907847e-02,  6.30652346e-03, -1.34924352e-02,\n",
-       "                       -7.86772370e-03,  2.03298517e-02,  1.62668228e-02,  8.84508621e-03,\n",
-       "                        1.78096499e-02,  1.08726043e-02,  9.57162119e-03,  1.47212772e-02,\n",
-       "                        2.21935660e-02, -1.45868107e-03, -8.12897284e-04, -7.34515116e-03,\n",
-       "                        8.64875689e-03,  7.40144961e-03,  6.41043903e-03,  4.63293120e-03,\n",
-       "                        4.28604428e-03,  2.04059836e-02, -8.72917753e-03,  9.75611620e-03,\n",
-       "                        1.00321267e-02,  1.31200878e-02,  2.10976950e-03,  5.71965007e-04,\n",
-       "                        1.03311744e-02, -1.68516766e-03, -1.79438982e-02, -1.74083021e-02,\n",
-       "                       -4.92391782e-03, -1.39317811e-02,  1.48546761e-02, -1.66444052e-02,\n",
-       "                       -3.73365986e-03, -1.36026256e-02,  8.19035619e-03,  4.33718460e-03,\n",
-       "                        4.58232686e-03,  7.53803365e-03,  7.45450845e-03,  7.19609112e-03,\n",
-       "                        1.62290093e-02,  1.26000466e-02, -1.52490484e-02, -2.25856341e-03,\n",
-       "                        2.89014243e-02,  9.44819208e-03,  2.67197583e-02,  6.94153551e-03,\n",
-       "                        1.24824699e-02,  1.95698701e-02, -1.01897297e-02, -1.00039514e-02,\n",
-       "                       -1.04320236e-02, -5.10433037e-03, -8.07258673e-03,  2.40934156e-02,\n",
-       "                       -1.08093852e-02,  3.51674552e-03,  1.24634281e-02,  1.61194839e-02,\n",
-       "                       -4.07268107e-03, -1.28737884e-03, -9.59544443e-04, -1.11112036e-02,\n",
-       "                        1.40558928e-03,  4.56377538e-03,  1.02128573e-02, -6.15438679e-03,\n",
-       "                       -1.33012095e-03,  1.53693510e-02,  1.19307695e-03, -3.19028762e-03,\n",
-       "                        9.25229862e-03,  9.54286443e-05,  3.19778686e-03,  3.43006453e-03,\n",
-       "                        6.68310421e-03, -2.00596638e-03,  2.85807136e-03,  1.19629130e-02,\n",
-       "                       -1.41574815e-02,  1.94316776e-03,  1.87879975e-03,  7.44125294e-03,\n",
-       "                        1.26068098e-02, -1.95779037e-02, -6.75179390e-03,  1.15828542e-02,\n",
-       "                        6.07337616e-03,  4.42268746e-03,  4.94396780e-03,  1.21988477e-02,\n",
-       "                        1.14446990e-02,  1.16123529e-02, -1.07849846e-02,  2.87843146e-03,\n",
-       "                       -1.42739005e-02, -4.04459005e-03, -9.62248445e-03, -5.20158932e-03,\n",
-       "                        6.75694225e-03, -4.65211784e-03,  8.97594448e-03,  1.08250836e-02,\n",
-       "                       -9.49004479e-03,  8.20130017e-03,  8.76851380e-03,  7.95888528e-03,\n",
-       "                        1.37145184e-02,  1.75602008e-02, -8.12873431e-03,  4.97413147e-03,\n",
-       "                       -9.14748292e-03,  1.12449210e-02,  1.59501564e-02,  2.49886438e-02,\n",
-       "                        4.06043883e-03, -6.10539550e-03,  7.11079978e-04,  3.61572509e-03,\n",
-       "                       -7.32730026e-04,  3.84381087e-03,  1.06619615e-02,  2.37780120e-02,\n",
-       "                        1.45025449e-02,  4.25680401e-03, -4.45264997e-03,  1.09784387e-03,\n",
-       "                        2.25181933e-02,  2.84491549e-03,  6.20998326e-04,  2.56988090e-02,\n",
-       "                        1.40275266e-02,  7.56263779e-03, -7.95345195e-03,  2.59988755e-02,\n",
-       "                        1.14943031e-02, -3.48383840e-03,  1.20270695e-03, -6.31895149e-03,\n",
-       "                        6.45010313e-03, -6.69839000e-03,  2.74554864e-02,  1.23840626e-02,\n",
-       "                       -7.85988197e-03,  7.35028647e-03,  1.56578515e-02,  2.94154929e-03,\n",
-       "                        3.62430466e-03, -5.50300488e-03, -4.76662040e-04,  1.59057863e-02,\n",
-       "                       -4.85554570e-03, -1.82895325e-02, -2.30622664e-03, -9.59027000e-03,\n",
-       "                        2.40675379e-02,  5.72432298e-03,  8.61885119e-03,  1.81669146e-02,\n",
-       "                       -7.79482257e-03,  8.06681905e-03,  7.92973395e-03,  8.86156689e-03,\n",
-       "                        1.07650831e-02,  1.68679189e-02,  1.77217312e-02,  1.61346719e-02,\n",
-       "                        2.15555485e-02, -4.34635347e-03, -1.01557719e-02, -7.55260175e-04,\n",
-       "                       -1.61906844e-03, -6.42401120e-03, -5.87663008e-03,  8.43080506e-03,\n",
-       "                        1.68590657e-02,  2.30838265e-02, -9.95164085e-03, -3.70766473e-04,\n",
-       "                        4.54875827e-03,  1.40316486e-02,  6.50463440e-03, -9.05440375e-03,\n",
-       "                        1.86522224e-03,  3.77172534e-03, -1.21039599e-02,  6.24031387e-03,\n",
-       "                        6.86559547e-03,  3.87154031e-03,  7.53928721e-03, -3.78697389e-03,\n",
-       "                        8.47220607e-03,  5.19724749e-03, -1.68645848e-02, -6.83352305e-03,\n",
-       "                        6.16311003e-03,  2.06075478e-02, -3.36128706e-03, -4.54347255e-03,\n",
-       "                       -4.43226658e-03,  9.47801396e-03,  1.34469452e-03, -2.78269453e-03,\n",
-       "                        1.07496325e-03,  5.72886225e-03, -4.58427705e-03,  4.34674323e-03,\n",
-       "                        1.00894533e-02,  6.01954013e-03,  1.18409786e-02,  1.02127623e-02,\n",
-       "                       -3.16850585e-03, -1.01286909e-02,  2.17334591e-02,  1.12441396e-02,\n",
-       "                       -4.21741139e-03,  5.98146534e-03,  1.92161649e-02, -9.98497382e-03,\n",
-       "                        1.02236588e-02,  3.91611643e-03,  1.38576785e-02, -4.98477183e-03,\n",
-       "                        2.07855050e-02,  1.55463815e-02,  1.42694395e-02,  1.70583408e-02,\n",
-       "                       -2.10462380e-02,  7.90667254e-03,  1.00777100e-03,  2.03150448e-05,\n",
-       "                       -9.65817273e-03,  1.48673952e-02, -4.30348329e-03,  1.13944628e-03,\n",
-       "                        2.93337228e-03, -8.70792102e-03, -1.75675575e-03,  8.86655040e-03,\n",
-       "                        1.60456393e-02,  1.19324429e-02,  9.20977350e-03,  1.57949142e-02,\n",
-       "                        3.98718752e-03,  5.14104264e-03, -2.80088722e-03,  2.14166343e-02,\n",
-       "                       -1.71560235e-02, -8.84766877e-03, -9.08766873e-03,  4.13088640e-03,\n",
-       "                        7.41530722e-03, -7.14520458e-03,  1.43901035e-02,  1.57008432e-02,\n",
-       "                        3.48176365e-03,  1.34258689e-02, -7.77519168e-03,  2.52181496e-02,\n",
-       "                        1.94994695e-02, -1.00142611e-02,  4.24301857e-03,  4.00523946e-04,\n",
-       "                        1.96565893e-02,  1.52775235e-02,  1.19475620e-02,  3.16524319e-03,\n",
-       "                        1.98126957e-02,  1.54079534e-02,  2.37543555e-03,  9.40866210e-03,\n",
-       "                        4.05140314e-03,  7.91203696e-04,  1.09335911e-02,  1.97298676e-02,\n",
-       "                       -1.93075929e-02,  1.94303587e-03,  3.35570797e-02, -2.26485580e-02,\n",
-       "                        1.55655332e-02,  7.09330058e-03,  4.23489313e-04,  9.61118191e-03,\n",
-       "                        1.63517352e-02,  1.42600127e-02, -5.09561691e-03, -3.46544152e-03,\n",
-       "                       -7.05293380e-03,  5.47119463e-03, -1.19369272e-02,  3.55220283e-03,\n",
-       "                       -6.47027092e-03, -4.66864277e-03, -1.12860324e-03,  1.57437511e-02,\n",
-       "                        8.27108324e-03,  2.43137102e-03, -1.15485163e-02, -1.33490609e-02,\n",
-       "                        1.06290532e-02,  1.28479563e-02, -1.36187626e-03,  1.18819866e-02,\n",
-       "                        1.30752167e-02, -8.14791210e-03,  1.79868210e-02, -1.14236902e-02,\n",
-       "                       -1.29655702e-02,  2.08648783e-03, -7.74235511e-03,  1.28833978e-02,\n",
-       "                        6.50411658e-03,  7.50467088e-03, -1.07559422e-02,  1.75879411e-02,\n",
-       "                       -8.50211736e-03, -1.01776710e-02,  2.42663119e-02,  1.62711286e-03,\n",
-       "                        6.88572740e-03,  5.71457949e-03,  6.17601851e-04, -1.78704094e-02,\n",
-       "                       -1.71567197e-04, -8.67385324e-03,  1.68735757e-02,  3.69164161e-03,\n",
-       "                       -1.05630793e-02,  6.74468745e-03,  1.98948095e-04,  7.28386408e-03,\n",
-       "                       -2.24167085e-03,  7.09309569e-03,  2.85558943e-02,  1.32500548e-02,\n",
-       "                        1.69137903e-02, -2.37387780e-04, -2.18597203e-02, -4.46859561e-03,\n",
-       "                        1.04082571e-02,  4.03283583e-03,  9.06235911e-03,  2.31208205e-02,\n",
-       "                        1.02282958e-02,  7.54507864e-03, -2.02157628e-03,  1.72267552e-03,\n",
-       "                        7.76690198e-04, -2.34109838e-03,  2.48324894e-03, -1.77459500e-03,\n",
-       "                        1.74034499e-02,  1.18780583e-02,  2.42147446e-02,  4.53634560e-03,\n",
-       "                       -7.13373011e-04,  6.53022528e-03,  1.31792929e-02,  3.03253159e-03,\n",
-       "                       -1.16036963e-02,  1.38841802e-02, -9.61985672e-04,  1.56072509e-02,\n",
-       "                        1.83839221e-02, -1.26425391e-02, -8.58081039e-03,  1.77578256e-02,\n",
-       "                       -1.57705601e-02,  6.07309677e-03,  1.58127826e-02, -4.43605706e-03,\n",
-       "                        3.01327799e-02,  1.62303597e-02,  1.62664112e-02,  9.25481878e-03,\n",
-       "                       -2.17470736e-03, -2.18344177e-03,  1.02113271e-02,  2.36091372e-02,\n",
-       "                        1.14256535e-02, -1.63149880e-03, -1.76011212e-02,  7.09930295e-03,\n",
-       "                        7.96853937e-03,  1.75659396e-02, -3.90994363e-03, -1.06832599e-02,\n",
-       "                       -8.94176587e-03, -1.21121760e-02,  5.23515511e-03, -1.00380024e-02,\n",
-       "                       -9.87766962e-03,  2.45441310e-02,  3.19681270e-03,  1.41334981e-02,\n",
-       "                        2.02579927e-02,  2.55680783e-03,  8.56060628e-03, -2.40424345e-03,\n",
-       "                       -1.69302542e-02, -4.54237964e-03, -1.20616211e-02,  1.82611158e-03,\n",
-       "                        2.76846206e-03,  1.38199525e-02, -1.33961961e-02,  7.89576955e-03,\n",
-       "                        1.97190102e-02,  7.84316193e-03,  1.24047138e-02, -1.47519272e-03,\n",
-       "                       -9.65619646e-03,  8.34757928e-03, -2.17827642e-03, -3.88957502e-04,\n",
-       "                        1.64355468e-02,  2.64623687e-02, -9.89953335e-03,  1.12777716e-02,\n",
-       "                       -2.95404904e-03,  8.74106493e-03,  1.55162811e-03, -3.00494349e-03,\n",
-       "                        2.69142073e-03,  2.39436403e-02, -9.84442607e-03,  1.80167556e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[ 0.03105873,  0.02197045,  0.01535711, ..., -0.02207142,\n",
-       "                        -0.00204962,  0.01233771],\n",
-       "                       [-0.00683493, -0.01493787,  0.00323838, ..., -0.00578931,\n",
-       "                         0.01483128,  0.02967459],\n",
-       "                       [-0.02099711,  0.00616769, -0.00663288, ...,  0.02499438,\n",
-       "                         0.01299867, -0.00927783],\n",
-       "                       ...,\n",
-       "                       [-0.01390732,  0.01844309, -0.01650524, ...,  0.00378714,\n",
-       "                         0.00615161,  0.00803701],\n",
-       "                       [ 0.00750632, -0.00458682, -0.01339437, ..., -0.00503869,\n",
-       "                        -0.00725265, -0.00729213],\n",
-       "                       [-0.00832169,  0.01612099, -0.02206275, ..., -0.03785598,\n",
-       "                        -0.01250057, -0.02561413]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-1.18231699e-02,  1.03601832e-02, -8.29804223e-03,  1.99701991e-02,\n",
-       "                        1.76643080e-04,  4.44231071e-02,  2.99130473e-02,  3.19546983e-02,\n",
-       "                       -1.12999994e-02,  3.43591869e-02, -1.61521472e-02,  1.36177503e-02,\n",
-       "                        1.15128085e-02, -1.09507621e-03, -3.37390555e-03,  6.89360220e-03,\n",
-       "                       -4.13123937e-03,  1.62499081e-02, -8.00683629e-04, -2.11246312e-02,\n",
-       "                       -1.37601141e-02,  3.46819125e-02,  9.78396088e-03, -4.11889283e-03,\n",
-       "                        5.74809080e-03,  1.44397409e-03,  3.15773301e-03,  7.75392726e-03,\n",
-       "                       -1.11424308e-02, -1.06719630e-02,  1.12653803e-02, -1.79730225e-02,\n",
-       "                        8.06322228e-03, -2.28440948e-03,  2.09859367e-02, -1.07666533e-02,\n",
-       "                       -1.69093590e-02,  1.28620099e-02,  3.85885276e-02,  2.59677637e-02,\n",
-       "                       -2.09366418e-02,  1.07704918e-03, -4.80084028e-03, -1.99089963e-02,\n",
-       "                        2.55218279e-02,  1.77786537e-02,  7.77578400e-03,  1.14584505e-03,\n",
-       "                       -1.43661699e-03,  1.05165811e-02,  4.13904246e-03, -1.51320302e-03,\n",
-       "                        7.36002252e-03, -2.05752421e-02,  5.02680764e-02,  5.19761303e-03,\n",
-       "                       -3.12606804e-04, -1.33357486e-02,  1.02019459e-02, -2.60877237e-03,\n",
-       "                        7.74074951e-03, -5.22067491e-03,  1.11552700e-02, -5.16852923e-03,\n",
-       "                        8.53748340e-03, -6.34515099e-03,  2.92164087e-02, -1.34276906e-02,\n",
-       "                       -2.07019337e-02, -6.97588595e-03, -9.50461428e-04, -5.22856563e-02,\n",
-       "                       -4.60096495e-03, -1.05865430e-02, -7.99557834e-04,  1.64804514e-03,\n",
-       "                       -1.11557161e-02, -2.90366467e-02,  1.41196838e-02, -9.79548972e-03,\n",
-       "                       -4.00953926e-03,  1.12849819e-02,  2.55571981e-03, -1.16084691e-03,\n",
-       "                        2.75370330e-02,  3.10603790e-02,  5.13396645e-03,  9.99009516e-03,\n",
-       "                        1.81308165e-02, -1.73914377e-02, -6.52272627e-03, -4.53224359e-03,\n",
-       "                       -1.50986025e-02,  1.44944564e-02, -1.71106905e-02, -3.57185379e-02,\n",
-       "                       -1.84081197e-02,  6.25483785e-03, -3.86861190e-02, -1.24735022e-02,\n",
-       "                       -3.20191239e-03, -5.15542505e-03, -2.35393108e-03,  1.86459981e-02,\n",
-       "                       -7.51753850e-03, -4.82365210e-03,  3.32103260e-02,  7.17555871e-03,\n",
-       "                        7.25519285e-03, -9.94957238e-03,  1.35318565e-04, -2.35690605e-02,\n",
-       "                       -3.16280313e-03, -1.14406820e-03,  2.74472986e-03,  6.59645908e-03,\n",
-       "                       -1.41589751e-03,  4.13854569e-02, -1.44355716e-02, -6.92052348e-03,\n",
-       "                        5.55959530e-03, -3.30252536e-02, -1.38800498e-02,  8.02037679e-03,\n",
-       "                       -2.93474011e-02,  3.47584710e-02,  9.14734043e-03, -9.73121449e-03,\n",
-       "                       -1.23930294e-02,  2.06993651e-02, -3.12827341e-03, -2.32891343e-03,\n",
-       "                       -3.46817225e-02,  6.07703906e-03,  2.06695050e-02,  1.19140390e-02,\n",
-       "                       -3.75964679e-02,  7.35174678e-03, -4.06955648e-03, -4.85159121e-02,\n",
-       "                        6.43890491e-03, -2.10845768e-02, -2.46330500e-02, -1.20099075e-03,\n",
-       "                       -4.61101271e-02,  5.49700065e-03,  4.75712121e-03, -3.62440175e-03,\n",
-       "                        1.52475038e-03,  4.00585197e-02,  1.48058282e-02, -2.08347831e-02,\n",
-       "                       -7.71040935e-03,  3.24013340e-03, -4.08119755e-04,  1.07808020e-02,\n",
-       "                       -8.54405575e-03,  1.08643081e-02, -2.49987431e-02, -9.56417341e-03,\n",
-       "                        7.06814753e-05,  1.61526855e-02,  8.29778844e-04,  5.27869863e-03,\n",
-       "                        1.83209090e-03,  5.17274626e-03, -9.73243825e-03,  1.77772976e-02,\n",
-       "                        9.07951314e-03,  2.06841063e-02, -1.68221779e-02, -3.72066498e-02,\n",
-       "                        2.13726964e-02, -2.43793298e-02,  7.82521069e-03,  1.40628982e-02,\n",
-       "                       -1.62246283e-02,  1.40211182e-02, -2.62036663e-03,  6.93138875e-03,\n",
-       "                       -1.47657488e-02,  2.04760805e-02,  2.87828641e-03,  1.40901785e-02,\n",
-       "                        5.04952762e-03,  1.17212813e-02,  2.30959542e-02, -1.17893247e-02,\n",
-       "                        1.45166460e-02,  3.32305534e-03, -7.83565454e-03, -7.87868979e-04],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0261322 , 1.0269046 , 0.9773781 , 1.0247962 , 1.0097598 ,\n",
-       "                       1.0459249 , 1.0389155 , 1.0094162 , 0.9840094 , 1.0255837 ,\n",
-       "                       1.0145838 , 1.029601  , 0.9919759 , 1.0503366 , 1.000113  ,\n",
-       "                       0.98745275, 0.9951172 , 0.98850536, 1.0047354 , 1.0157787 ,\n",
-       "                       1.0056013 , 1.0997953 , 1.0325745 , 1.0181527 , 0.9886395 ,\n",
-       "                       1.0032426 , 0.9645967 , 1.0369183 , 1.0305737 , 1.022639  ,\n",
-       "                       0.98697466, 1.0407704 , 1.0208054 , 1.0117294 , 1.0012168 ,\n",
-       "                       1.0317819 , 1.0090001 , 1.0274644 , 1.0130668 , 0.99157923,\n",
-       "                       1.032259  , 1.0095482 , 1.0317316 , 1.0250219 , 1.0415062 ,\n",
-       "                       0.99819475, 1.0200968 , 1.0049968 , 1.0128824 , 1.0352737 ,\n",
-       "                       1.0368786 , 0.96232355, 1.0403799 , 1.0008532 , 1.0264657 ,\n",
-       "                       0.9998839 , 0.97538733, 0.991134  , 1.0391068 , 0.9888234 ,\n",
-       "                       1.0180827 , 0.9775322 , 1.0192289 , 1.0150893 , 1.000222  ,\n",
-       "                       1.0049831 , 0.9870896 , 1.0674498 , 1.0196699 , 1.0082041 ,\n",
-       "                       1.0324329 , 0.99676013, 1.0091047 , 1.0248021 , 1.0044961 ,\n",
-       "                       1.0053085 , 1.0009363 , 0.9970736 , 0.94617426, 1.0338936 ,\n",
-       "                       1.0148971 , 0.96663743, 1.0128137 , 1.0034641 , 1.0319886 ,\n",
-       "                       1.0064343 , 1.0028603 , 1.002649  , 1.0243838 , 1.0064948 ,\n",
-       "                       1.0377748 , 0.9891696 , 0.9866293 , 0.99707025, 0.99078393,\n",
-       "                       1.0176572 , 1.0241402 , 1.0049547 , 1.000801  , 1.034779  ,\n",
-       "                       1.0198549 , 0.9966189 , 0.9957258 , 1.0326344 , 0.99225044,\n",
-       "                       1.0071577 , 1.0114198 , 1.0367244 , 1.0063225 , 0.9908461 ,\n",
-       "                       1.0214857 , 1.0045844 , 0.97997284, 0.98385096, 1.0132415 ,\n",
-       "                       1.0294743 , 1.0063779 , 1.0424733 , 1.0020639 , 1.0190448 ,\n",
-       "                       0.9811757 , 1.0200567 , 1.0410883 , 1.0080585 , 1.0111438 ,\n",
-       "                       1.0438564 , 1.0073017 , 1.0119686 , 1.0274266 , 1.0132748 ,\n",
-       "                       0.9857355 , 0.98808295, 1.0102935 , 1.0228415 , 0.99962467,\n",
-       "                       1.0004269 , 0.99588555, 1.0006347 , 1.0041206 , 0.990004  ,\n",
-       "                       0.9891518 , 1.0437917 , 1.0374291 , 0.99602705, 1.0428259 ,\n",
-       "                       0.97428006, 1.0055739 , 1.0196538 , 1.0008999 , 1.0310303 ,\n",
-       "                       1.002109  , 0.9910634 , 0.9972151 , 1.0127355 , 0.98564386,\n",
-       "                       1.0203615 , 1.0232209 , 1.0296504 , 0.9873712 , 1.0131739 ,\n",
-       "                       0.9984371 , 1.0343952 , 0.9563564 , 1.0268995 , 1.0328572 ,\n",
-       "                       1.002335  , 0.98883   , 1.0180264 , 0.9681929 , 0.9756003 ,\n",
-       "                       1.070814  , 1.0193576 , 0.98169804, 1.0006468 , 1.0085332 ,\n",
-       "                       0.9559967 , 1.0291041 , 1.0083201 , 1.0401794 , 0.99601644,\n",
-       "                       1.0606512 , 1.0057952 , 0.98249924, 1.0013803 , 0.9975868 ,\n",
-       "                       1.0436803 , 0.9974033 , 1.0232234 , 1.0014886 , 0.95568186,\n",
-       "                       1.0128983 , 1.0420789 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 2.52928934e-03,  2.75707990e-02, -7.46368477e-03,  2.60973740e-02,\n",
-       "                       -2.99260370e-03,  2.73417979e-02,  4.90686111e-02,  1.38162207e-02,\n",
-       "                        8.11486784e-03,  1.70336086e-02,  3.51925148e-03, -7.69003760e-03,\n",
-       "                        2.59532798e-02, -1.75180901e-02, -1.08880019e-02,  1.38446065e-02,\n",
-       "                       -2.13629357e-03,  8.55799112e-03,  8.28036014e-03,  2.36780709e-03,\n",
-       "                       -1.72654982e-05,  9.31350291e-02,  2.88223773e-02,  3.16347592e-02,\n",
-       "                       -1.64339896e-02,  2.52713393e-02, -8.71144608e-03,  4.91184108e-02,\n",
-       "                       -2.37441119e-02, -1.38560440e-02,  6.72000367e-03, -8.39894861e-02,\n",
-       "                       -1.03174821e-02, -1.49761168e-02, -1.07429633e-02,  6.57213945e-03,\n",
-       "                        2.32967455e-03,  6.64166058e-04,  1.59889422e-02, -3.34091089e-03,\n",
-       "                        3.97001253e-03,  3.76692340e-02, -3.19892950e-02,  1.11396972e-03,\n",
-       "                        3.83891873e-02,  1.59136765e-02,  1.96111146e-02, -1.42334513e-02,\n",
-       "                        3.52888145e-02,  1.33105358e-02,  5.51172113e-03,  2.60192398e-02,\n",
-       "                       -8.31306912e-03,  5.08351345e-03,  1.16162142e-02,  9.07008070e-03,\n",
-       "                       -1.77313585e-03, -1.13073476e-02, -2.63853911e-02, -7.58569455e-03,\n",
-       "                        1.23039568e-02, -9.51751322e-03,  3.47649269e-02, -8.37521441e-03,\n",
-       "                       -3.41385603e-03, -1.35939382e-02, -2.31663603e-02, -3.02777179e-02,\n",
-       "                       -1.23716239e-02, -2.14149896e-02, -2.31477581e-02, -1.99445989e-02,\n",
-       "                       -1.63127650e-02, -1.80728100e-02, -8.70492589e-03, -1.29072918e-02,\n",
-       "                       -2.68601850e-02, -6.94075646e-03, -4.48201085e-03, -3.69689763e-02,\n",
-       "                       -2.38052551e-02,  9.86985397e-03,  1.81750860e-02, -2.17389762e-02,\n",
-       "                        1.58198401e-02,  1.82335339e-02,  1.69853829e-02,  8.53019953e-03,\n",
-       "                        1.26137808e-02,  4.35138913e-03, -1.42680006e-02, -7.37039372e-03,\n",
-       "                       -9.13672987e-03,  8.27492448e-04,  2.01249495e-02, -3.34417671e-02,\n",
-       "                       -8.82770121e-03,  7.83569762e-04,  1.45847378e-02, -2.61937417e-02,\n",
-       "                       -5.73098920e-02,  2.56210603e-02,  1.96438842e-02,  1.58894695e-02,\n",
-       "                        2.79775411e-02,  4.48896922e-02,  7.81496707e-03,  3.24482359e-02,\n",
-       "                       -2.23230664e-03, -9.27990023e-03, -3.37327085e-02, -2.58272141e-02,\n",
-       "                       -2.16552466e-02,  1.95785761e-02,  1.95409935e-02,  1.11613050e-02,\n",
-       "                       -1.71062257e-02,  1.76059026e-02, -1.35756070e-02, -1.33802658e-02,\n",
-       "                        1.22849524e-04, -3.00864950e-02, -3.07294056e-02,  8.43367260e-03,\n",
-       "                        1.71686104e-03,  1.77911706e-02,  2.96829501e-03,  6.71349885e-03,\n",
-       "                       -1.27283167e-02,  1.89087614e-02,  2.34963223e-02, -8.70413706e-03,\n",
-       "                       -2.57595368e-02,  3.97355249e-03,  2.23790798e-02,  1.55618126e-02,\n",
-       "                       -1.90211681e-03,  9.54312459e-03,  1.30000506e-02, -1.60749331e-02,\n",
-       "                        1.90574955e-02, -2.48913411e-02, -1.22065293e-02, -1.17140273e-02,\n",
-       "                       -7.87160620e-02,  7.49537256e-03,  1.81484632e-02,  4.25873324e-03,\n",
-       "                       -2.96639949e-02,  9.80244949e-03, -2.01651305e-02, -2.05957796e-02,\n",
-       "                       -1.32818706e-02,  2.80134995e-02,  1.27927978e-02,  1.28203519e-02,\n",
-       "                        7.55941402e-03,  1.86280571e-02, -2.17847694e-02,  3.51456041e-03,\n",
-       "                       -9.69546381e-05,  2.68017650e-02, -1.62972324e-02,  4.14601108e-03,\n",
-       "                        1.23571977e-02,  1.97119489e-02, -7.15771178e-03,  5.23134600e-03,\n",
-       "                        3.03786639e-02, -1.63936466e-02, -3.25149409e-02, -5.39167337e-02,\n",
-       "                        3.43849994e-02, -1.77244600e-02, -8.30308069e-03, -2.26102229e-02,\n",
-       "                       -3.20713557e-02, -4.66967747e-02, -4.05329056e-02, -1.22320019e-02,\n",
-       "                       -3.25014628e-02,  5.88958384e-03, -1.72737613e-02,  3.55301984e-02,\n",
-       "                       -1.11767389e-02,  4.04588655e-02,  3.43203195e-04, -3.55312340e-02,\n",
-       "                        8.39638431e-03, -2.83913617e-03, -4.11246624e-03, -1.91871380e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-9.14077908e-02,  1.13878334e-02, -8.51188079e-02, ...,\n",
-       "                        7.58047625e-02,  4.81901653e-02, -1.57964990e-01],\n",
-       "                      [-3.61972786e-02, -6.05871342e-03,  4.62203361e-02, ...,\n",
-       "                        1.02220975e-01,  3.31187397e-02, -2.00551637e-02],\n",
-       "                      [-1.78344436e-02,  1.10841259e-01, -8.28037853e-04, ...,\n",
-       "                       -2.72256564e-02, -3.21121849e-02,  2.49014031e-02],\n",
-       "                      ...,\n",
-       "                      [-1.44089619e-02,  3.92392725e-02,  2.32233517e-02, ...,\n",
-       "                        3.18129919e-03, -9.68393534e-02,  7.63502344e-02],\n",
-       "                      [ 4.15719226e-02,  5.68181686e-02,  1.57067806e-01, ...,\n",
-       "                        1.03105821e-01,  7.46680945e-02, -1.58567447e-02],\n",
-       "                      [-4.14981209e-02,  1.08322926e-01,  6.22609854e-02, ...,\n",
-       "                        9.51158553e-02, -4.82069701e-03,  3.56614999e-02]],\n",
-       "              \n",
-       "                     [[ 2.21992377e-02, -5.97883500e-02,  5.15988655e-02, ...,\n",
-       "                       -1.11302346e-01,  4.72044796e-02,  5.94906546e-02],\n",
-       "                      [ 8.15225467e-02, -1.04043297e-02,  1.18145466e-01, ...,\n",
-       "                       -1.53390374e-02, -5.59366755e-02, -1.01808645e-02],\n",
-       "                      [ 5.30351363e-02, -7.88138062e-02,  5.97658455e-02, ...,\n",
-       "                        3.89603190e-02, -2.52384972e-02, -4.04863395e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.18525168e-02, -1.18374228e-01,  1.22500304e-02, ...,\n",
-       "                        7.76050566e-03, -2.46625934e-02, -1.08838245e-01],\n",
-       "                      [-2.82060308e-03, -3.73417921e-02, -7.43817911e-02, ...,\n",
-       "                       -6.81613460e-02, -9.98374727e-03,  3.63878049e-02],\n",
-       "                      [-2.33192071e-02, -7.30483979e-02, -1.47890881e-01, ...,\n",
-       "                       -2.56333891e-02, -1.82271786e-02, -1.11294717e-01]],\n",
-       "              \n",
-       "                     [[ 7.07995743e-02,  1.02071442e-01, -4.62083258e-02, ...,\n",
-       "                       -3.06372382e-02, -8.96562729e-03, -1.60935847e-03],\n",
-       "                      [ 4.93399464e-02,  5.80327064e-02, -4.21695262e-02, ...,\n",
-       "                       -4.44087908e-02,  6.36480451e-02,  9.20375884e-02],\n",
-       "                      [ 2.61474848e-02,  1.04868315e-01,  8.21986571e-02, ...,\n",
-       "                        6.94721192e-02, -4.26909029e-02,  3.19289789e-02],\n",
-       "                      ...,\n",
-       "                      [ 5.12780324e-02,  2.22272910e-02,  7.36066028e-02, ...,\n",
-       "                       -1.02062506e-04, -2.78015006e-02, -2.21668612e-02],\n",
-       "                      [ 3.76984179e-02, -5.69667593e-02,  9.02416408e-02, ...,\n",
-       "                       -1.17468983e-02, -3.04301623e-02,  7.01869503e-02],\n",
-       "                      [ 1.47923687e-02,  7.80922920e-02, -8.18262398e-02, ...,\n",
-       "                       -7.04243034e-02,  1.69871803e-02, -1.93864703e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-7.37240771e-03, -1.19801663e-01,  6.94409460e-02, ...,\n",
-       "                       -5.98479286e-02,  1.27701059e-01,  1.34302229e-01],\n",
-       "                      [ 1.42167673e-01, -3.61821651e-02,  8.10781941e-02, ...,\n",
-       "                       -5.00151552e-02, -1.02305926e-01, -2.29969881e-02],\n",
-       "                      [ 7.70621598e-02, -3.88466418e-02,  1.30510852e-01, ...,\n",
-       "                       -2.38810554e-02,  1.85351875e-02, -7.33468086e-02],\n",
-       "                      ...,\n",
-       "                      [ 8.39333534e-02, -1.29041314e-01, -1.34542719e-01, ...,\n",
-       "                        9.67865635e-04,  8.93794596e-02, -5.52671216e-02],\n",
-       "                      [ 6.98279887e-02, -7.33840745e-04,  1.12927826e-02, ...,\n",
-       "                       -8.48613232e-02,  1.15450528e-02,  8.48317146e-02],\n",
-       "                      [-1.45672085e-02, -4.56641093e-02,  3.52248806e-03, ...,\n",
-       "                       -9.79588628e-02,  1.43803144e-02, -1.96329392e-02]],\n",
-       "              \n",
-       "                     [[-2.24300846e-02, -9.70121622e-02, -5.53180464e-02, ...,\n",
-       "                        1.14226513e-01, -1.15935691e-01, -8.40203557e-03],\n",
-       "                      [ 2.19793785e-02,  2.20347419e-02,  3.52332145e-02, ...,\n",
-       "                       -4.72014174e-02, -4.09451835e-02, -1.41605914e-01],\n",
-       "                      [-7.50652626e-02, -4.78943847e-02, -2.94669345e-02, ...,\n",
-       "                       -2.04580035e-02,  2.83687301e-02,  7.36517832e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.45165937e-03, -5.17790206e-02,  6.01154417e-02, ...,\n",
-       "                       -6.84089139e-02,  2.98251119e-02,  1.11601777e-01],\n",
-       "                      [ 1.68807507e-02,  4.85507809e-02, -5.92818707e-02, ...,\n",
-       "                       -3.60055789e-02, -1.57371853e-02,  3.19426693e-02],\n",
-       "                      [-2.77272481e-02, -3.94149087e-02,  1.89277288e-02, ...,\n",
-       "                        7.10227247e-03, -1.24480035e-02,  1.21919438e-01]],\n",
-       "              \n",
-       "                     [[-1.07383234e-02,  2.83993669e-02, -7.25662708e-02, ...,\n",
-       "                       -1.08398020e-01,  5.89501522e-02, -2.39164885e-02],\n",
-       "                      [-5.66680133e-02, -1.15045384e-01,  1.19717479e-01, ...,\n",
-       "                       -7.25880936e-02, -8.00165460e-02,  2.48625781e-02],\n",
-       "                      [-5.32022268e-02, -6.84107393e-02, -4.79449611e-03, ...,\n",
-       "                        1.19777806e-02, -6.41888380e-02, -1.23907752e-01],\n",
-       "                      ...,\n",
-       "                      [ 1.39709413e-01, -1.15669481e-02,  1.02200054e-01, ...,\n",
-       "                        3.99158709e-02, -3.26740108e-02, -4.94181402e-02],\n",
-       "                      [-1.52411321e-02,  6.57810271e-02, -1.58718899e-01, ...,\n",
-       "                        5.38997818e-03, -2.09698156e-01,  6.31303014e-03],\n",
-       "                      [-6.14385307e-03, -3.01341526e-04, -3.58580053e-02, ...,\n",
-       "                        2.14667432e-02,  2.57892162e-02, -1.59396425e-01]]],\n",
-       "                    dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.02706272, -0.01475603,  0.01799243, ..., -0.01109189,\n",
-       "                       -0.10876201,  0.0518376 ],\n",
-       "                      [-0.0031296 , -0.02590217, -0.02579277, ..., -0.05076121,\n",
-       "                        0.01024422, -0.0047144 ],\n",
-       "                      [ 0.01895484, -0.03475295, -0.03113441, ..., -0.00184126,\n",
-       "                        0.01880827,  0.00846547],\n",
-       "                      ...,\n",
-       "                      [-0.0230201 , -0.00894863,  0.00495793, ..., -0.00316434,\n",
-       "                        0.04121248,  0.00622395],\n",
-       "                      [-0.05963105,  0.01012768, -0.03366488, ...,  0.00041262,\n",
-       "                        0.00683424, -0.01068041],\n",
-       "                      [ 0.02895327, -0.02416312,  0.01993154, ..., -0.01618524,\n",
-       "                       -0.01545478,  0.00205119]],\n",
-       "              \n",
-       "                     [[-0.04576638,  0.04656557, -0.01677025, ...,  0.02344459,\n",
-       "                       -0.12276172, -0.00676864],\n",
-       "                      [-0.00978681,  0.04487051, -0.08663532, ..., -0.03004673,\n",
-       "                        0.01007075,  0.03550502],\n",
-       "                      [ 0.02785692,  0.02792483,  0.00051675, ...,  0.00370448,\n",
-       "                        0.00668171,  0.04424441],\n",
-       "                      ...,\n",
-       "                      [-0.02920452,  0.02893456, -0.02343769, ..., -0.04401347,\n",
-       "                       -0.02856454,  0.03050387],\n",
-       "                      [ 0.04369762, -0.03524409,  0.04656316, ...,  0.00108793,\n",
-       "                       -0.02215741,  0.01845626],\n",
-       "                      [-0.01543178,  0.01866272,  0.01845369, ..., -0.02931005,\n",
-       "                        0.03298638,  0.01737015]],\n",
-       "              \n",
-       "                     [[-0.135364  , -0.0664507 ,  0.01112893, ..., -0.00859859,\n",
-       "                        0.00755295,  0.01676364],\n",
-       "                      [-0.02737699, -0.04769333,  0.05760125, ...,  0.02541748,\n",
-       "                       -0.03828989, -0.06387301],\n",
-       "                      [-0.01690764, -0.0606076 , -0.01655304, ..., -0.02443056,\n",
-       "                        0.04120573, -0.04320288],\n",
-       "                      ...,\n",
-       "                      [-0.00565883,  0.04010722,  0.00216758, ...,  0.02029311,\n",
-       "                        0.039828  ,  0.01575541],\n",
-       "                      [ 0.00487086,  0.0582353 , -0.0297171 , ..., -0.01682885,\n",
-       "                       -0.00391845, -0.0216135 ],\n",
-       "                      [ 0.00531683, -0.01306163,  0.04055905, ...,  0.02679659,\n",
-       "                       -0.05756253,  0.01769848]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 0.00473029,  0.0232644 , -0.0174927 , ...,  0.01263051,\n",
-       "                       -0.10177041, -0.03314629],\n",
-       "                      [-0.05181501,  0.01826319, -0.00387804, ...,  0.00019099,\n",
-       "                        0.0264037 ,  0.00855082],\n",
-       "                      [-0.02973071,  0.01030848, -0.01891961, ...,  0.05118888,\n",
-       "                       -0.08611775,  0.08852727],\n",
-       "                      ...,\n",
-       "                      [-0.02925289,  0.04309483,  0.04216203, ...,  0.00242066,\n",
-       "                       -0.05256388,  0.00049124],\n",
-       "                      [-0.01112139,  0.01980946, -0.03196227, ...,  0.03356062,\n",
-       "                       -0.010408  , -0.02198589],\n",
-       "                      [-0.03535127, -0.00773543, -0.00885877, ...,  0.02874871,\n",
-       "                        0.00311856,  0.02825575]],\n",
-       "              \n",
-       "                     [[ 0.04659694,  0.07548056,  0.01092906, ..., -0.0534005 ,\n",
-       "                        0.09931507,  0.01606977],\n",
-       "                      [-0.01193147,  0.00658854, -0.01162503, ...,  0.05445072,\n",
-       "                       -0.00323939,  0.06076182],\n",
-       "                      [ 0.01014838,  0.02871931,  0.01193392, ...,  0.03308337,\n",
-       "                       -0.01210698, -0.05587041],\n",
-       "                      ...,\n",
-       "                      [-0.00237026, -0.00477155, -0.02654402, ...,  0.05717536,\n",
-       "                       -0.00253815, -0.04528459],\n",
-       "                      [-0.00140787, -0.03180642,  0.03757759, ...,  0.00683571,\n",
-       "                        0.01135639, -0.00226221],\n",
-       "                      [ 0.0223318 ,  0.02836771, -0.00715415, ...,  0.00253245,\n",
-       "                       -0.000718  , -0.0467924 ]],\n",
-       "              \n",
-       "                     [[ 0.00486831, -0.03448185,  0.03256648, ...,  0.01382556,\n",
-       "                       -0.07196326,  0.02667288],\n",
-       "                      [ 0.02565878,  0.04478304, -0.08682576, ...,  0.01990675,\n",
-       "                        0.03794343, -0.01332447],\n",
-       "                      [ 0.03825634,  0.01602439, -0.01602452, ..., -0.00877481,\n",
-       "                        0.0457263 ,  0.05769112],\n",
-       "                      ...,\n",
-       "                      [-0.05350161,  0.00859326, -0.06572261, ..., -0.04210747,\n",
-       "                        0.00275381,  0.01149508],\n",
-       "                      [ 0.01882138, -0.10080525,  0.04411182, ...,  0.00712686,\n",
-       "                        0.05586889, -0.01648431],\n",
-       "                      [ 0.03689698,  0.0139469 ,  0.01361012, ..., -0.00313812,\n",
-       "                       -0.06611379,  0.05732429]]], dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 5.67087531e-02, -1.12824850e-01, -1.23196626e-02, ...,\n",
-       "                        1.13645149e-02,  3.56883346e-03,  8.45598057e-02],\n",
-       "                      [-5.77752071e-04, -3.07194218e-02, -3.13357264e-02, ...,\n",
-       "                        1.41118700e-03,  6.12614527e-02,  2.55001243e-02],\n",
-       "                      [-1.70748532e-02,  2.77932920e-02,  5.13067888e-03, ...,\n",
-       "                       -3.03416830e-02, -1.18992000e-03, -9.29238871e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.08567186e-02, -3.09913028e-02,  6.24712817e-02, ...,\n",
-       "                        2.55415663e-02,  5.63996136e-02,  5.12658581e-02],\n",
-       "                      [-3.21428478e-03,  3.66793349e-02, -1.32496789e-01, ...,\n",
-       "                        4.32726927e-02,  3.97490151e-02, -9.73474830e-02],\n",
-       "                      [-1.93562526e-02, -8.61222204e-03, -3.43473293e-02, ...,\n",
-       "                       -7.81473890e-02,  2.80602742e-02, -2.07295921e-02]],\n",
-       "              \n",
-       "                     [[ 8.56459141e-02,  7.02582160e-03, -3.84326689e-02, ...,\n",
-       "                       -3.87096703e-02,  5.14100343e-02, -1.08823977e-01],\n",
-       "                      [ 3.11664082e-02,  5.39870076e-02, -3.77238803e-02, ...,\n",
-       "                       -7.26625845e-02, -8.51336494e-03,  2.42818613e-03],\n",
-       "                      [-9.49790236e-03, -2.87521519e-02,  7.47229755e-02, ...,\n",
-       "                       -3.13882641e-02,  3.28157991e-02, -8.38298276e-02],\n",
-       "                      ...,\n",
-       "                      [-5.39512420e-03,  2.12775674e-02, -8.39983523e-02, ...,\n",
-       "                        6.08833181e-03,  1.98775176e-02,  5.47741689e-02],\n",
-       "                      [ 1.73927955e-02, -1.89691111e-02, -7.81969577e-02, ...,\n",
-       "                       -1.51080592e-02, -1.12658530e-01,  3.66142765e-03],\n",
-       "                      [ 2.85869651e-02, -7.98759833e-02, -2.40408368e-02, ...,\n",
-       "                       -4.39561494e-02, -1.08551057e-02,  6.84287250e-02]],\n",
-       "              \n",
-       "                     [[-8.98210257e-02, -8.23260564e-03, -7.24420995e-02, ...,\n",
-       "                       -8.25054646e-02,  8.48042034e-03, -3.15508172e-02],\n",
-       "                      [-2.38543581e-02, -5.01328148e-02,  8.82579293e-03, ...,\n",
-       "                        1.87256172e-01,  3.01636308e-02,  1.17524453e-01],\n",
-       "                      [ 3.30534093e-02,  5.23727853e-03, -7.37811029e-02, ...,\n",
-       "                       -7.10760653e-02, -2.29823533e-02, -2.13149209e-02],\n",
-       "                      ...,\n",
-       "                      [-2.47698408e-02,  9.20365751e-02, -3.46506089e-02, ...,\n",
-       "                        5.87393865e-02, -1.65056158e-02, -5.69600463e-02],\n",
-       "                      [ 2.32015271e-02, -5.16756326e-02,  1.28099397e-01, ...,\n",
-       "                        1.12314336e-01,  2.16532238e-02, -6.47730455e-02],\n",
-       "                      [ 2.03323364e-02, -7.36131817e-02,  1.41372532e-02, ...,\n",
-       "                        1.25761315e-01,  4.53136163e-03,  3.45687717e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-9.56907310e-03, -9.95358732e-03,  3.63281965e-02, ...,\n",
-       "                        2.58678198e-02,  4.62427326e-02, -6.91857040e-02],\n",
-       "                      [-9.87947453e-03,  8.94671008e-02, -8.27581808e-03, ...,\n",
-       "                        3.94476205e-02,  5.41206822e-02, -1.00297781e-04],\n",
-       "                      [ 1.17582083e-02,  7.56660998e-02, -1.23020314e-01, ...,\n",
-       "                        4.89301793e-02, -9.47242454e-02,  3.28166457e-03],\n",
-       "                      ...,\n",
-       "                      [ 1.15716793e-01,  3.90926264e-02, -4.99027520e-02, ...,\n",
-       "                        8.36827308e-02,  2.90968139e-02, -1.35319196e-02],\n",
-       "                      [ 9.96496007e-02,  4.21701605e-03, -9.55350790e-03, ...,\n",
-       "                        2.05535050e-02, -5.73687628e-02, -4.45158668e-02],\n",
-       "                      [ 1.23274401e-02,  4.88903075e-02, -2.19891965e-02, ...,\n",
-       "                        2.60861218e-02,  5.44191115e-02,  5.99674210e-02]],\n",
-       "              \n",
-       "                     [[-1.65354963e-02,  6.05088361e-02, -1.34862944e-01, ...,\n",
-       "                       -5.98663576e-02,  3.65664996e-02, -1.03359101e-02],\n",
-       "                      [-9.25186276e-03, -2.66341027e-02,  1.94170848e-02, ...,\n",
-       "                        2.30957083e-02, -4.58738953e-02, -4.78612706e-02],\n",
-       "                      [ 2.87209991e-02,  1.50819980e-02,  2.55784392e-02, ...,\n",
-       "                        3.31534520e-02, -3.39708515e-02,  6.50511608e-02],\n",
-       "                      ...,\n",
-       "                      [-2.69539766e-02,  4.67734933e-02, -2.07383726e-02, ...,\n",
-       "                        2.51334589e-02,  7.85554647e-02, -4.04318161e-02],\n",
-       "                      [-5.97617403e-02, -5.09780608e-02, -4.87654544e-02, ...,\n",
-       "                        7.31536280e-03, -2.58004926e-02, -1.06805447e-03],\n",
-       "                      [ 6.96763117e-03, -2.40809843e-03,  5.32752043e-03, ...,\n",
-       "                        1.89656429e-02, -2.77937427e-02, -4.43040021e-03]],\n",
-       "              \n",
-       "                     [[ 1.08559877e-01,  5.06516881e-02,  4.46610991e-03, ...,\n",
-       "                        2.41088998e-02, -5.01579493e-02, -1.30853996e-01],\n",
-       "                      [ 2.72694021e-03,  4.16806415e-02,  2.18579862e-02, ...,\n",
-       "                        8.55507031e-02,  2.64558773e-02, -2.36834567e-02],\n",
-       "                      [ 9.53411013e-02, -2.69163363e-02,  4.98878472e-02, ...,\n",
-       "                        1.33439843e-02,  6.63656220e-02,  1.11669907e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.26299094e-02, -9.85859185e-02, -1.44153526e-02, ...,\n",
-       "                       -1.92226265e-02,  7.13283569e-02, -1.10161053e-02],\n",
-       "                      [ 6.45558536e-02, -7.60441087e-03,  1.30066760e-02, ...,\n",
-       "                       -3.82443629e-02,  1.06134437e-01, -1.21100806e-01],\n",
-       "                      [-4.24301848e-02, -1.86020695e-02,  1.10428683e-01, ...,\n",
-       "                        2.61989217e-02, -1.09599389e-01,  8.63663629e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 8.66029318e-03, -1.14577517e-01,  2.51828320e-03, ...,\n",
-       "                       -9.27881300e-02, -1.15491651e-01,  1.76676996e-02],\n",
-       "                      [-7.61712566e-02, -4.53079939e-02, -3.83440144e-02, ...,\n",
-       "                       -6.27577379e-02,  2.21626088e-03, -5.94992712e-02],\n",
-       "                      [-2.56332336e-03,  5.90471923e-02, -4.72475886e-02, ...,\n",
-       "                        3.67398188e-02, -7.33544538e-03,  3.78904641e-02],\n",
-       "                      ...,\n",
-       "                      [-2.13392675e-02,  2.53363270e-02,  6.85974360e-02, ...,\n",
-       "                        3.40457745e-02,  8.49376842e-02,  5.36587182e-03],\n",
-       "                      [ 1.60655994e-02, -7.56803527e-02,  4.73908894e-02, ...,\n",
-       "                        3.05386297e-02,  5.41357175e-02,  7.49823898e-02],\n",
-       "                      [ 4.58855778e-02,  3.71842496e-02,  7.53282160e-02, ...,\n",
-       "                        3.70172504e-03, -3.53820138e-02, -5.28645553e-02]],\n",
-       "              \n",
-       "                     [[-3.55167175e-03, -2.94522091e-04, -3.51395980e-02, ...,\n",
-       "                        3.41055691e-02,  3.03370338e-02, -5.06093465e-02],\n",
-       "                      [ 2.40699574e-02,  5.95200136e-02, -6.21140413e-02, ...,\n",
-       "                        1.14351902e-02,  1.85474288e-02,  9.06990189e-03],\n",
-       "                      [-1.19964657e-02,  8.26470368e-03,  7.37269372e-02, ...,\n",
-       "                       -1.01896927e-01, -1.25561088e-01,  5.12074912e-03],\n",
-       "                      ...,\n",
-       "                      [-1.59163550e-02,  4.47448492e-02, -5.62733822e-02, ...,\n",
-       "                       -1.58314186e-03,  3.07480115e-02,  2.12907395e-03],\n",
-       "                      [ 5.29436469e-02,  8.85004643e-03, -5.96460328e-03, ...,\n",
-       "                        3.14378440e-02, -4.15493660e-02, -2.16497947e-02],\n",
-       "                      [ 2.48335098e-04, -2.38254899e-03, -8.83876067e-03, ...,\n",
-       "                        1.26072252e-02, -3.53750363e-02,  3.07404995e-03]],\n",
-       "              \n",
-       "                     [[-8.30164403e-02, -2.34115589e-02, -4.61669937e-02, ...,\n",
-       "                       -6.64920658e-02,  6.33270964e-02, -1.78227499e-02],\n",
-       "                      [-7.69058391e-02, -7.60177821e-02,  3.90506051e-02, ...,\n",
-       "                        1.22973844e-02,  8.64065159e-03,  1.01280168e-01],\n",
-       "                      [-6.82748621e-04, -2.65821535e-02, -3.84966880e-02, ...,\n",
-       "                       -1.80162862e-02,  9.76960920e-03,  3.76105122e-02],\n",
-       "                      ...,\n",
-       "                      [-5.84762208e-02,  5.76327890e-02, -1.74372140e-02, ...,\n",
-       "                       -7.67533854e-02, -1.02110216e-02, -3.60212587e-02],\n",
-       "                      [-3.30317393e-02,  1.38184456e-02,  6.58438280e-02, ...,\n",
-       "                        1.21754026e-02,  1.70937050e-02, -1.40107097e-02],\n",
-       "                      [-5.16036898e-02, -6.22054636e-02,  1.16310194e-02, ...,\n",
-       "                        6.95217699e-02,  8.53841566e-03,  4.68714796e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 1.17255980e-02,  7.38588301e-03,  2.76839491e-02, ...,\n",
-       "                        1.90327652e-02,  5.16140573e-02, -1.37946710e-01],\n",
-       "                      [ 2.57208347e-02,  1.09104672e-02,  3.15251462e-02, ...,\n",
-       "                        4.07493114e-02,  5.25305085e-02,  3.15010697e-02],\n",
-       "                      [ 1.89815201e-02,  6.16960227e-02,  3.34828347e-02, ...,\n",
-       "                       -1.66332368e-02, -9.41335633e-02, -3.90448980e-02],\n",
-       "                      ...,\n",
-       "                      [ 8.98937732e-02, -3.22609837e-03, -6.63657114e-02, ...,\n",
-       "                        3.03167403e-02, -6.76293130e-05,  5.02400473e-03],\n",
-       "                      [ 5.70965782e-02,  7.24036619e-03,  3.85382585e-03, ...,\n",
-       "                        9.01868120e-02, -5.91169717e-03, -6.02913462e-02],\n",
-       "                      [-5.98075092e-02, -3.06096841e-02, -1.54292081e-02, ...,\n",
-       "                        6.55795634e-02,  3.12577635e-02,  9.34221670e-02]],\n",
-       "              \n",
-       "                     [[-3.18901590e-03,  1.63269453e-02, -3.31503851e-03, ...,\n",
-       "                       -8.52069855e-02,  5.58818225e-03,  4.01768200e-02],\n",
-       "                      [ 1.10879391e-02,  3.53012718e-02,  6.00853097e-03, ...,\n",
-       "                        8.96103773e-03, -2.04980783e-02, -1.00578843e-02],\n",
-       "                      [ 6.01615310e-02,  7.26685487e-03, -1.52228177e-02, ...,\n",
-       "                        1.37231862e-02, -2.04465948e-02, -1.61056891e-02],\n",
-       "                      ...,\n",
-       "                      [-5.08951209e-02,  1.84552092e-02, -5.32345055e-03, ...,\n",
-       "                       -2.72054737e-03,  6.48149550e-02,  7.55127743e-02],\n",
-       "                      [ 1.13570224e-02, -1.89477820e-02,  2.59459894e-02, ...,\n",
-       "                       -3.25487554e-02, -5.39538898e-02, -4.34179567e-02],\n",
-       "                      [-1.20608704e-02, -5.62019320e-03, -1.85313057e-02, ...,\n",
-       "                        2.01634150e-02,  1.00505576e-02, -1.57885384e-02]],\n",
-       "              \n",
-       "                     [[-4.44078520e-02,  6.07606210e-03, -2.59394348e-02, ...,\n",
-       "                       -7.71517456e-02, -8.42755064e-02, -1.66165549e-02],\n",
-       "                      [ 1.88575257e-02,  3.10134366e-02,  3.20087746e-02, ...,\n",
-       "                        4.75202836e-02,  2.75874902e-02,  5.98586611e-02],\n",
-       "                      [ 1.48858996e-02, -2.13626288e-02, -1.11806169e-01, ...,\n",
-       "                       -3.95744778e-02, -1.11924306e-01, -4.32251021e-02],\n",
-       "                      ...,\n",
-       "                      [-3.16806063e-02,  6.08082600e-02,  5.26219085e-02, ...,\n",
-       "                       -2.04716958e-02,  3.42884101e-02,  1.69068556e-02],\n",
-       "                      [ 9.24186129e-03,  2.30468120e-02,  1.84935275e-02, ...,\n",
-       "                        3.59074026e-02,  5.17238043e-02,  1.21195316e-02],\n",
-       "                      [-2.55695079e-02,  2.09787451e-02, -8.66606180e-03, ...,\n",
-       "                        5.14007397e-02, -2.81591658e-02,  8.15731846e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.46897674e-01,  1.74011409e-01, -2.07041457e-01, ...,\n",
-       "                        2.09365278e-01,  7.04047009e-02, -1.94730520e-01],\n",
-       "                      [-1.91919565e-01, -1.88010305e-01, -1.38464078e-01, ...,\n",
-       "                        1.75045997e-01,  1.83993801e-01, -1.66332796e-01],\n",
-       "                      [-1.87968820e-01,  1.81354731e-01, -1.86937690e-01, ...,\n",
-       "                       -1.73305765e-01,  1.42847419e-01,  1.37066424e-01],\n",
-       "                      ...,\n",
-       "                      [-1.81287214e-01,  1.93034187e-01,  2.10268214e-01, ...,\n",
-       "                        2.11266726e-01,  2.23274544e-01,  2.13569388e-01],\n",
-       "                      [-1.77906901e-01,  1.88187703e-01,  2.09059939e-01, ...,\n",
-       "                        2.07140788e-01,  2.14991555e-01, -2.00226620e-01],\n",
-       "                      [ 1.72938675e-01,  1.84366092e-01,  2.02027947e-01, ...,\n",
-       "                        1.92545146e-01, -1.70009255e-01,  1.74475133e-01]],\n",
-       "              \n",
-       "                     [[-9.72831920e-02,  1.58304572e-01, -1.73237279e-01, ...,\n",
-       "                        1.58044904e-01,  5.10960259e-02, -1.99876621e-01],\n",
-       "                      [-1.29664943e-01, -1.37299687e-01, -1.13309212e-01, ...,\n",
-       "                        1.44313514e-01,  1.40009508e-01, -1.26466140e-01],\n",
-       "                      [-1.62108094e-01,  1.70799494e-01, -1.40059158e-01, ...,\n",
-       "                       -1.51002154e-01,  8.46845284e-02,  1.36088893e-01],\n",
-       "                      ...,\n",
-       "                      [-1.32899761e-01,  1.71471238e-01,  1.51986942e-01, ...,\n",
-       "                        1.66069463e-01,  1.65516198e-01,  1.63684517e-01],\n",
-       "                      [-1.30655318e-01,  1.75758496e-01,  1.73514783e-01, ...,\n",
-       "                        1.73679933e-01,  1.55112520e-01, -1.70741528e-01],\n",
-       "                      [ 1.23091467e-01,  1.46520704e-01,  1.53373584e-01, ...,\n",
-       "                        1.40420586e-01, -1.25283971e-01,  1.81063727e-01]],\n",
-       "              \n",
-       "                     [[-8.82046670e-02,  1.20563805e-01, -1.54819176e-01, ...,\n",
-       "                        1.37534931e-01,  7.11622387e-02, -1.69938922e-01],\n",
-       "                      [-1.27852052e-01, -1.35840997e-01, -8.00763592e-02, ...,\n",
-       "                        1.18804909e-01,  1.17752388e-01, -6.82469532e-02],\n",
-       "                      [-1.27978489e-01,  1.30864084e-01, -1.21015176e-01, ...,\n",
-       "                       -1.36511073e-01,  9.61252674e-02,  8.98678079e-02],\n",
-       "                      ...,\n",
-       "                      [-1.27951488e-01,  1.54330939e-01,  1.37083441e-01, ...,\n",
-       "                        1.36708304e-01,  1.42049015e-01,  1.24714136e-01],\n",
-       "                      [-8.22131708e-02,  8.92748907e-02,  1.30160138e-01, ...,\n",
-       "                        1.36945337e-01,  1.26669794e-01, -1.22825712e-01],\n",
-       "                      [ 1.11137711e-01,  1.09357782e-01,  1.39476791e-01, ...,\n",
-       "                        1.16972752e-01, -1.02480344e-01,  1.31967843e-01]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 9.53109644e-04,  2.36279629e-02,  2.00178288e-03, ...,\n",
-       "                        5.88640803e-03,  3.05523304e-03, -7.16660544e-03],\n",
-       "                      [-1.66137051e-02,  2.43202504e-02,  1.39665473e-02, ...,\n",
-       "                        1.29140597e-02,  3.85063398e-03,  8.05215444e-03],\n",
-       "                      [-1.17559778e-03,  1.35235796e-02,  1.29539445e-02, ...,\n",
-       "                        1.29707437e-02,  5.79934474e-03, -1.83496403e-03],\n",
-       "                      ...,\n",
-       "                      [-4.06753412e-03,  5.26591064e-03, -8.99039581e-03, ...,\n",
-       "                        4.24702466e-02,  2.50355471e-02, -1.18161682e-02],\n",
-       "                      [ 1.86481122e-02,  4.72524873e-04, -2.97491509e-03, ...,\n",
-       "                       -7.89663754e-04,  1.45817995e-02,  1.99292991e-02],\n",
-       "                      [ 6.24428876e-03,  4.76739649e-03, -2.52191699e-03, ...,\n",
-       "                        1.14012184e-03,  1.34989284e-02,  2.64687147e-02]],\n",
-       "              \n",
-       "                     [[ 1.98490229e-02,  1.32721895e-02,  2.04636739e-03, ...,\n",
-       "                       -1.59615539e-02,  3.51932757e-02,  1.42656248e-02],\n",
-       "                      [-4.00670309e-04, -3.32874944e-04,  2.40566581e-02, ...,\n",
-       "                        1.08023062e-02, -1.90807581e-02, -5.00886608e-03],\n",
-       "                      [-1.52654015e-02,  1.49440160e-02, -2.63901725e-02, ...,\n",
-       "                       -1.51216965e-02,  6.56380411e-03, -1.47011476e-02],\n",
-       "                      ...,\n",
-       "                      [-2.04982725e-03, -1.84093118e-02, -8.56019929e-03, ...,\n",
-       "                       -5.50516229e-03, -1.67570729e-02,  1.74919405e-04],\n",
-       "                      [-9.94952582e-03, -4.25786190e-02, -1.12591460e-02, ...,\n",
-       "                       -1.10278605e-02, -1.64491571e-02,  8.36265925e-03],\n",
-       "                      [ 2.35332940e-02, -4.40680422e-03, -1.85185752e-03, ...,\n",
-       "                        1.28285857e-02, -3.74334864e-02, -6.49360567e-03]],\n",
-       "              \n",
-       "                     [[-4.03778590e-02,  3.10220500e-03, -3.23167108e-02, ...,\n",
-       "                        1.71264191e-03,  5.96588850e-03, -2.12317165e-02],\n",
-       "                      [-2.02080980e-02, -7.53459148e-03, -4.10040235e-03, ...,\n",
-       "                        3.79406707e-03,  2.68777627e-02, -1.61216389e-02],\n",
-       "                      [-4.50483896e-03,  7.15539558e-03, -9.55935009e-03, ...,\n",
-       "                       -4.80790297e-03,  2.41799094e-03, -3.76463821e-03],\n",
-       "                      ...,\n",
-       "                      [-1.57353263e-02,  8.99432600e-03,  5.29706152e-03, ...,\n",
-       "                        1.19281923e-02,  9.35687870e-03, -2.13156436e-02],\n",
-       "                      [ 8.13638791e-03,  9.65433847e-03, -9.12594423e-03, ...,\n",
-       "                        2.02135020e-03, -4.37395182e-03, -6.05759968e-04],\n",
-       "                      [-2.53979210e-02,  8.30472796e-04,  1.21758673e-02, ...,\n",
-       "                        8.98340251e-03,  2.04570275e-02,  8.64630472e-03]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.14899914, -0.34153602,  0.3803297 ,  0.36917952, -0.38786203,\n",
-       "                      -0.13080384,  0.344216  , -0.35379156, -0.3844165 , -0.36286288,\n",
-       "                      -0.08941454,  0.37458393],\n",
-       "                     [ 0.33911064,  0.32911122,  0.31310028,  0.29833585, -0.30792385,\n",
-       "                       0.33739606, -0.32293308,  0.3369534 , -0.31201705, -0.3280124 ,\n",
-       "                      -0.32297572,  0.3089489 ],\n",
-       "                     [ 0.36541435, -0.36004987,  0.35938582, -0.36907914,  0.3486618 ,\n",
-       "                      -0.0593513 , -0.34139338,  0.35678086, -0.36190793,  0.34279796,\n",
-       "                      -0.31591862, -0.29939887],\n",
-       "                     [-0.28541145, -0.28479883,  0.2857083 ,  0.29083747, -0.28382772,\n",
-       "                      -0.27742648,  0.27382922, -0.262767  , -0.28953055,  0.22580072,\n",
-       "                       0.2792229 ,  0.26833603],\n",
-       "                     [-0.31788912,  0.32046515,  0.30290008,  0.31088528, -0.31547454,\n",
-       "                       0.30249548, -0.26167852,  0.30141065, -0.32778227,  0.30795413,\n",
-       "                      -0.31171426, -0.25726327],\n",
-       "                     [ 0.314079  , -0.30792624, -0.3221542 , -0.30551824,  0.24594624,\n",
-       "                       0.31892028, -0.3053024 , -0.00082669,  0.29853317, -0.29422322,\n",
-       "                       0.30099693,  0.2978344 ],\n",
-       "                     [-0.37505603,  0.3527668 , -0.35440302,  0.30887768,  0.35537973,\n",
-       "                       0.34240764, -0.36563224, -0.32328182,  0.3066197 ,  0.3783165 ,\n",
-       "                       0.36704957, -0.07152183],\n",
-       "                     [-0.24481814, -0.25152895, -0.26902637, -0.25899634,  0.26075813,\n",
-       "                       0.25052536, -0.18769039,  0.24073453, -0.23911558, -0.264942  ,\n",
-       "                      -0.24604012, -0.25978062],\n",
-       "                     [ 0.3448066 ,  0.35508814,  0.3277917 , -0.36480623, -0.36373508,\n",
-       "                       0.34252417, -0.26490748, -0.3698438 , -0.37082767, -0.38157573,\n",
-       "                      -0.35605282, -0.34466416],\n",
-       "                     [ 0.30798635,  0.36460385, -0.3754039 ,  0.3400862 , -0.35259473,\n",
-       "                       0.34701774,  0.18916364, -0.3498748 , -0.356646  , -0.36569807,\n",
-       "                      -0.36399728, -0.30652383],\n",
-       "                     [ 0.25416747, -0.27864173,  0.24143916,  0.2589485 ,  0.26826364,\n",
-       "                      -0.276374  ,  0.28044358, -0.26923546, -0.23912592, -0.272487  ,\n",
-       "                      -0.26509777,  0.27066582],\n",
-       "                     [-0.2960118 , -0.29988503, -0.29283497,  0.2847119 ,  0.30326426,\n",
-       "                      -0.29098433,  0.29103255, -0.29597896,  0.27998862,  0.29750696,\n",
-       "                       0.3016155 , -0.2862795 ],\n",
-       "                     [-0.33974963, -0.3114596 , -0.3245498 , -0.33191413, -0.26564565,\n",
-       "                      -0.31937695,  0.32511777, -0.3418174 ,  0.3280482 , -0.32252905,\n",
-       "                       0.31764168, -0.3219256 ],\n",
-       "                     [ 0.36129203, -0.3835813 , -0.34948146, -0.38187614, -0.10551658,\n",
-       "                      -0.35736713,  0.36742166, -0.10739829,  0.3812859 , -0.38279817,\n",
-       "                      -0.38232875, -0.37825328],\n",
-       "                     [ 0.3321833 , -0.33618993, -0.35035315, -0.11618523, -0.31958073,\n",
-       "                      -0.34353533, -0.3631967 , -0.32926843, -0.3406108 , -0.40713176,\n",
-       "                      -0.35072395,  0.3597266 ],\n",
-       "                     [-0.35400867, -0.35107192, -0.37232462, -0.37361598,  0.36000717,\n",
-       "                      -0.33463717,  0.38095737, -0.34364143, -0.33852988, -0.35104772,\n",
-       "                       0.2981984 , -0.3554742 ]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-4.62216102e-02,  1.16589062e-01, -1.36763275e-01,\n",
-       "                      -1.22126430e-01,  1.48961708e-01,  1.45974793e-02,\n",
-       "                      -1.61591738e-01,  1.87203407e-01,  2.07243934e-01,\n",
-       "                       1.52396217e-01,  2.49146335e-02, -2.02902481e-01],\n",
-       "                     [-1.07586920e-01, -1.06996477e-01, -7.84136206e-02,\n",
-       "                      -5.37643544e-02,  8.04927945e-02, -1.09561071e-01,\n",
-       "                       1.08106196e-01, -1.32538766e-01,  9.16128457e-02,\n",
-       "                       6.15168475e-02,  6.16029464e-02, -6.31495491e-02],\n",
-       "                     [-1.13178924e-01,  1.40476599e-01, -1.35648683e-01,\n",
-       "                       1.80651262e-01, -9.42587331e-02,  4.49052267e-02,\n",
-       "                       1.27758279e-01, -3.65762338e-02,  1.44819573e-01,\n",
-       "                      -1.08886130e-01,  7.25614876e-02,  5.72540285e-03],\n",
-       "                     [ 1.28033966e-01,  4.27292474e-02, -5.35008721e-02,\n",
-       "                      -1.09917521e-01,  4.55539674e-02,  9.57781374e-02,\n",
-       "                      -1.04749307e-01,  5.18838726e-02,  8.35832134e-02,\n",
-       "                      -1.41942231e-02, -7.90465996e-02, -1.42346501e-01],\n",
-       "                     [ 7.61313289e-02, -4.59336676e-02, -1.19175784e-01,\n",
-       "                      -8.25000405e-02,  1.09469183e-01, -1.36095643e-01,\n",
-       "                       2.47284826e-02, -2.28797179e-02,  1.37981102e-01,\n",
-       "                      -1.14949889e-01,  4.44846004e-02,  3.99738923e-02],\n",
-       "                     [-1.65838182e-01,  9.48740020e-02,  1.44404322e-01,\n",
-       "                       8.53616223e-02, -2.70830076e-02, -6.19642437e-02,\n",
-       "                       8.94338936e-02,  7.70374341e-03, -8.17450806e-02,\n",
-       "                       1.17244996e-01, -7.69629925e-02, -1.09416604e-01],\n",
-       "                     [ 1.57854617e-01, -1.56897545e-01,  1.29691288e-01,\n",
-       "                      -8.42681080e-02, -8.85965973e-02, -1.28146768e-01,\n",
-       "                       8.91689807e-02,  1.08561374e-01, -9.64733809e-02,\n",
-       "                      -1.55561730e-01, -8.79286975e-02, -1.13232369e-02],\n",
-       "                     [ 7.38919228e-02,  1.09030314e-01,  6.82480931e-02,\n",
-       "                       5.55296168e-02, -6.17072172e-02, -1.04720660e-01,\n",
-       "                      -6.92145200e-03, -3.91406119e-02,  4.73909490e-02,\n",
-       "                       7.34069794e-02,  5.68175763e-02,  4.85593155e-02],\n",
-       "                     [-1.74990490e-01, -1.20659910e-01, -1.35730013e-01,\n",
-       "                       1.51203781e-01,  1.48414791e-01, -7.34399632e-02,\n",
-       "                       7.54770786e-02,  2.29218081e-01,  9.63332728e-02,\n",
-       "                       1.05563387e-01,  1.79456845e-01,  1.29063517e-01],\n",
-       "                     [-4.34173606e-02, -1.30563438e-01,  1.60625249e-01,\n",
-       "                      -1.41897142e-01,  1.51958242e-01, -6.46752417e-02,\n",
-       "                       1.28286381e-04,  5.29836081e-02,  1.19528137e-01,\n",
-       "                       2.21275479e-01,  1.76483870e-01,  5.65731786e-02],\n",
-       "                     [ 7.86350667e-03,  1.22386105e-01, -3.76115479e-02,\n",
-       "                      -3.60284224e-02, -9.76402089e-02,  1.65668249e-01,\n",
-       "                      -8.34911838e-02,  7.12872595e-02,  3.44360694e-02,\n",
-       "                       7.70075917e-02,  6.81297109e-02, -3.08290645e-02],\n",
-       "                     [ 1.20040596e-01,  6.12675473e-02,  1.29310817e-01,\n",
-       "                      -7.74290562e-02, -7.78047889e-02,  8.89190733e-02,\n",
-       "                      -3.96793000e-02,  7.09067658e-02, -7.84836560e-02,\n",
-       "                      -5.97045012e-02, -5.77512644e-02,  1.05530277e-01],\n",
-       "                     [ 5.21370508e-02,  9.81653333e-02,  1.14423938e-01,\n",
-       "                       1.14286542e-01,  5.82821295e-02,  1.18820079e-01,\n",
-       "                      -8.86438638e-02,  5.43031134e-02, -8.52945074e-02,\n",
-       "                       8.23517442e-02, -9.12688896e-02,  3.97731513e-02],\n",
-       "                     [-9.26975161e-02,  1.76723376e-01,  1.12929732e-01,\n",
-       "                       1.46531433e-01,  9.49880015e-03,  1.27589166e-01,\n",
-       "                      -2.04214618e-01,  3.05328611e-03, -1.69557929e-01,\n",
-       "                       1.36818811e-01,  9.52240303e-02,  2.15536699e-01],\n",
-       "                     [-5.74819483e-02,  5.62564880e-02,  1.98273271e-01,\n",
-       "                      -1.17968698e-03,  1.26326323e-01,  1.54033735e-01,\n",
-       "                       1.18295722e-01,  4.89505827e-02,  1.98732257e-01,\n",
-       "                       1.31851271e-01,  1.58291176e-01, -1.05149098e-01],\n",
-       "                     [ 8.80631879e-02,  1.58400908e-01,  1.52702242e-01,\n",
-       "                       1.10614061e-01, -8.25159028e-02,  2.31264345e-02,\n",
-       "                      -1.75350800e-01,  9.48455557e-02,  8.91729742e-02,\n",
-       "                       1.68625101e-01, -4.55371849e-02,  1.06890120e-01]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 7.61602633e-03, -1.85396653e-02,  1.41175482e-02,\n",
-       "                        1.02747520e-02, -1.02692777e-02, -5.79114538e-03,\n",
-       "                       -2.25887215e-03,  1.97049114e-03,  5.02155814e-03,\n",
-       "                       -6.39485754e-03, -4.06287983e-03,  1.60969961e-02],\n",
-       "                      [-1.68735627e-02, -4.82341414e-03,  6.73457189e-03,\n",
-       "                        9.00006853e-04, -2.81745940e-03, -5.75073343e-03,\n",
-       "                        6.85399212e-03, -3.11884983e-03,  1.24747735e-02,\n",
-       "                       -5.00333635e-03,  1.04523534e-02, -9.33902338e-03],\n",
-       "                      [ 3.03338887e-03,  1.81995309e-03, -4.44657216e-03,\n",
-       "                       -6.89545879e-04,  8.68439456e-05,  4.08066344e-03,\n",
-       "                        6.55966694e-04, -1.95205770e-02, -2.45983759e-03,\n",
-       "                        2.33589532e-03,  3.92747996e-03, -1.79917943e-02],\n",
-       "                      [-7.01340672e-04,  1.79661233e-02, -1.47282165e-02,\n",
-       "                       -1.05006841e-03,  1.18477382e-02,  4.56858613e-03,\n",
-       "                       -1.35715781e-02,  1.63909830e-02, -1.83726789e-03,\n",
-       "                       -4.62263270e-05, -1.51350088e-02,  1.84442364e-02],\n",
-       "                      [ 3.17642442e-03, -1.64884496e-02,  1.18464208e-03,\n",
-       "                        6.03873935e-03,  1.23784514e-02, -6.32783957e-03,\n",
-       "                        3.94236110e-03,  7.08509982e-03,  1.44205999e-03,\n",
-       "                        8.04485381e-03,  3.18194245e-04, -3.99992894e-03],\n",
-       "                      [-1.37944268e-02, -4.84130438e-03,  1.68232359e-02,\n",
-       "                        1.21006211e-02,  1.01589188e-02, -8.44671298e-03,\n",
-       "                       -1.34035468e-03, -2.33793142e-03,  1.44077949e-02,\n",
-       "                        1.12157769e-03,  9.63134400e-04, -1.19164761e-03],\n",
-       "                      [-5.74960979e-03,  6.86749723e-03,  1.20431418e-02,\n",
-       "                       -4.14077239e-03, -1.14332717e-02,  1.46603184e-02,\n",
-       "                       -2.92793987e-03, -5.18011584e-05,  5.89169236e-03,\n",
-       "                        5.62065002e-03, -1.54455882e-02, -1.93359759e-02],\n",
-       "                      [-1.32184587e-02, -8.09574313e-03,  1.73612162e-02,\n",
-       "                        1.75058469e-02,  1.21301925e-02,  1.62602477e-02,\n",
-       "                       -1.33753968e-02,  3.75581020e-03, -4.20281896e-03,\n",
-       "                        1.55054042e-02, -1.15841664e-02, -2.08650995e-03],\n",
-       "                      [ 7.34686246e-03,  1.02794832e-02,  1.31241558e-03,\n",
-       "                        2.87566753e-03,  5.84390247e-03,  3.02153081e-03,\n",
-       "                       -7.33443536e-03, -7.87269603e-03,  4.51662997e-03,\n",
-       "                        2.32343981e-03,  9.98496637e-03, -9.53329075e-03],\n",
-       "                      [ 9.44391824e-03, -1.56681787e-03,  5.64246729e-04,\n",
-       "                        8.50769039e-03, -5.61839016e-03,  1.00806393e-02,\n",
-       "                        4.45341272e-03,  1.17781861e-02, -9.62750241e-03,\n",
-       "                        1.01322914e-02,  1.13904784e-02, -2.56038038e-03],\n",
-       "                      [-6.31258730e-03, -7.30622979e-03, -4.83252574e-03,\n",
-       "                        1.29672261e-02, -2.86618783e-03, -6.99736294e-04,\n",
-       "                        8.63193162e-03,  1.24630332e-02, -1.86973754e-02,\n",
-       "                        9.60467104e-03,  4.52060765e-03,  7.15382455e-04],\n",
-       "                      [ 6.44308235e-03,  9.21295118e-03, -1.06562199e-02,\n",
-       "                        5.58915641e-03,  5.59847150e-03, -1.35788438e-03,\n",
-       "                       -9.19332448e-03, -2.69832183e-03, -3.68528347e-03,\n",
-       "                        1.15745421e-02, -1.17136361e-02, -1.45567106e-02],\n",
-       "                      [ 2.83513777e-03,  3.74191441e-04, -1.22113694e-02,\n",
-       "                        6.28614333e-03,  7.08920229e-03, -8.08887556e-03,\n",
-       "                        1.31595219e-02,  1.39163062e-03, -3.51439044e-03,\n",
-       "                       -4.80555138e-03,  1.24805709e-02,  4.39498993e-03],\n",
-       "                      [-6.46104245e-03, -1.21651953e-02,  4.77740867e-03,\n",
-       "                        1.86753627e-02,  6.51393831e-03,  5.62973600e-03,\n",
-       "                       -8.28108564e-03, -4.60683648e-03, -2.26973137e-03,\n",
-       "                        1.69612304e-03,  1.37645304e-02,  4.08384204e-03],\n",
-       "                      [ 1.00966161e-02,  4.48917999e-04, -7.04559498e-03,\n",
-       "                        8.03261995e-03, -8.51394236e-03, -1.22877944e-03,\n",
-       "                        1.14519382e-02,  1.36096608e-02,  1.72907033e-03,\n",
-       "                        7.85259437e-03,  1.05255041e-02,  8.69190600e-03],\n",
-       "                      [-8.03734455e-03, -1.39566569e-03,  2.11605406e-03,\n",
-       "                       -1.92271248e-02,  6.85958471e-03,  4.88640182e-03,\n",
-       "                       -1.38192775e-03, -1.90305218e-04,  4.97502321e-03,\n",
-       "                       -2.50085886e-03, -7.32155377e-03, -1.67938080e-02]],\n",
-       "              \n",
-       "                     [[ 1.62638456e-03,  2.68377247e-03,  3.17260344e-03,\n",
-       "                        5.79241151e-03, -7.17955036e-03,  8.01912975e-03,\n",
-       "                       -1.63808875e-02, -9.24083032e-03,  3.45636159e-03,\n",
-       "                       -1.23387324e-02, -7.20368931e-04, -9.56835225e-03],\n",
-       "                      [ 9.82169900e-03,  1.30084464e-02, -8.22803937e-03,\n",
-       "                        6.71537360e-04,  9.21022613e-03,  1.52312005e-02,\n",
-       "                       -5.26927318e-03,  1.06863305e-02,  2.06984673e-03,\n",
-       "                       -3.76264495e-03,  7.69555243e-07, -4.93265106e-04],\n",
-       "                      [ 2.69030291e-03,  1.87809858e-02,  6.67323358e-03,\n",
-       "                       -4.26321942e-03,  4.72564157e-03, -1.31812878e-02,\n",
-       "                       -7.40861241e-03, -2.29317695e-03, -1.57082290e-03,\n",
-       "                       -1.32690351e-02, -1.30699258e-02,  1.92320778e-03],\n",
-       "                      [ 9.12022125e-03, -5.23217348e-03, -2.81146332e-03,\n",
-       "                       -4.00763704e-03,  5.03227348e-03,  5.72717097e-03,\n",
-       "                        2.91952444e-03,  1.11247518e-03,  9.63956481e-05,\n",
-       "                       -4.55610408e-03, -8.37675110e-03,  1.22519284e-02],\n",
-       "                      [-1.25213778e-02,  8.71963392e-04,  5.76882577e-03,\n",
-       "                       -9.85392556e-03,  5.49371168e-03, -1.67311262e-02,\n",
-       "                        5.46998065e-03,  4.39474359e-03,  2.89234682e-03,\n",
-       "                        6.99596014e-03,  6.47728844e-03, -1.53464787e-02],\n",
-       "                      [-1.01970322e-02, -1.51678976e-02,  6.84761163e-03,\n",
-       "                       -1.76049639e-02, -6.48754463e-03, -7.78641377e-04,\n",
-       "                       -1.47116324e-02,  5.12523763e-03, -2.96233199e-03,\n",
-       "                        7.93477241e-03,  1.36973644e-02,  1.22740660e-02],\n",
-       "                      [-3.13485460e-03, -1.59246139e-02, -2.70899059e-03,\n",
-       "                        5.44029754e-03,  7.52424821e-03,  7.31652137e-03,\n",
-       "                        8.10533017e-03, -1.90883912e-02,  5.15720714e-03,\n",
-       "                        3.53280571e-04,  6.17373036e-03,  1.06591405e-03],\n",
-       "                      [-1.56332664e-02,  1.97712099e-04,  2.64872634e-03,\n",
-       "                        3.45370430e-03, -4.22930811e-03,  1.24690169e-02,\n",
-       "                        5.05634700e-04,  1.37720944e-03, -6.16728095e-03,\n",
-       "                       -7.40552146e-04,  1.39584523e-02, -7.06139440e-03],\n",
-       "                      [ 9.77421529e-04,  3.80252837e-03, -7.89496861e-03,\n",
-       "                       -1.29530979e-02,  1.14574879e-02, -2.45792069e-03,\n",
-       "                        3.06926225e-03,  4.14119754e-03,  8.37595493e-04,\n",
-       "                       -6.71465555e-03,  1.04225632e-02,  8.42171349e-03],\n",
-       "                      [ 1.56976059e-02, -4.26411582e-03, -1.29620070e-02,\n",
-       "                        1.14640398e-02, -1.17234429e-02, -2.09121429e-03,\n",
-       "                        5.49160130e-03,  9.51116718e-03, -2.61860876e-03,\n",
-       "                        1.29721547e-03,  5.72805619e-03, -1.54486364e-02],\n",
-       "                      [-3.25736636e-03,  1.26759680e-02,  1.27404844e-02,\n",
-       "                        1.17001981e-02, -1.16444677e-02, -9.64581780e-03,\n",
-       "                       -2.40927562e-03, -5.55342529e-03,  9.27424431e-03,\n",
-       "                       -1.71160791e-04,  1.56472288e-02, -6.92155631e-03],\n",
-       "                      [ 7.27083022e-03, -4.46589151e-03,  1.09822885e-03,\n",
-       "                        2.19783024e-03, -8.46979953e-03, -1.37587897e-02,\n",
-       "                        8.10799282e-03, -7.17377802e-03,  8.80086981e-03,\n",
-       "                       -7.99593702e-03,  6.07788330e-03, -7.93825951e-04],\n",
-       "                      [ 1.49642804e-03, -1.11999689e-02,  4.39703232e-03,\n",
-       "                        4.85239923e-03,  1.54058973e-03, -1.47980507e-02,\n",
-       "                       -6.85563916e-03,  6.63761189e-03, -1.56310081e-04,\n",
-       "                       -6.49932865e-03,  3.30587942e-03, -1.08573148e-02],\n",
-       "                      [-2.20668572e-03,  4.14557988e-03, -1.93234999e-02,\n",
-       "                       -5.82999643e-03,  3.43196769e-03,  5.27025107e-03,\n",
-       "                        8.35015997e-03, -4.63553797e-03, -6.61056815e-03,\n",
-       "                       -3.66679509e-03,  4.02782438e-03, -3.52020166e-03],\n",
-       "                      [ 6.47542719e-03,  9.46311373e-03, -5.95815713e-03,\n",
-       "                       -3.98951210e-03, -1.26922242e-02, -8.83757137e-04,\n",
-       "                       -5.64072188e-03,  1.16748745e-02,  2.87583284e-03,\n",
-       "                       -2.04839162e-03, -9.87775158e-03,  8.34393501e-03],\n",
-       "                      [-5.55553939e-03, -2.07615201e-03, -5.13571315e-03,\n",
-       "                       -1.45472540e-02, -1.17446017e-02, -1.51618780e-03,\n",
-       "                       -2.92225089e-03, -1.33080781e-02, -6.99464139e-03,\n",
-       "                       -1.41988527e-02, -1.21150836e-02,  1.95427015e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0242676 , 1.0201554 , 0.981655  , 1.022025  , 1.007073  ,\n",
-       "                       1.045315  , 1.0340022 , 1.0059034 , 0.99349135, 1.0217655 ,\n",
-       "                       1.0187205 , 1.025378  , 0.994724  , 1.0449401 , 0.9978945 ,\n",
-       "                       0.9911819 , 1.0020549 , 0.9941773 , 1.0036273 , 1.0188001 ,\n",
-       "                       1.0051787 , 1.1197566 , 1.02651   , 1.0183053 , 0.98811615,\n",
-       "                       0.99960953, 0.9662069 , 1.023346  , 1.0210128 , 1.0216892 ,\n",
-       "                       0.9806572 , 1.0309644 , 1.0199112 , 1.0103893 , 0.9986699 ,\n",
-       "                       1.0303093 , 1.0149937 , 1.0205405 , 1.0189662 , 0.9963332 ,\n",
-       "                       1.0298607 , 1.0065924 , 1.0308235 , 1.0236278 , 1.0338595 ,\n",
-       "                       0.9944997 , 1.0148902 , 1.0015576 , 1.0081712 , 1.0300711 ,\n",
-       "                       1.0326444 , 0.9802065 , 1.031543  , 1.0039631 , 1.025484  ,\n",
-       "                       1.0000758 , 0.9787232 , 0.99785537, 1.0325978 , 0.9884796 ,\n",
-       "                       1.018895  , 0.98055667, 1.0263902 , 1.0205623 , 1.0014325 ,\n",
-       "                       1.0014066 , 0.98294795, 1.0587208 , 1.0157356 , 1.0120552 ,\n",
-       "                       1.0324315 , 1.0007839 , 0.99985874, 1.0201912 , 1.0071391 ,\n",
-       "                       1.00749   , 0.9991882 , 1.0052526 , 0.9652451 , 1.0244923 ,\n",
-       "                       1.0113801 , 0.9739409 , 0.9995484 , 1.0089414 , 1.0357728 ,\n",
-       "                       1.0092472 , 1.0074127 , 0.99813294, 1.0280186 , 0.99566907,\n",
-       "                       1.033792  , 0.99090743, 0.98742676, 1.00218   , 0.9944762 ,\n",
-       "                       1.0180073 , 1.0204257 , 0.9978386 , 1.0030422 , 1.0376201 ,\n",
-       "                       1.0196778 , 1.0020446 , 0.9946544 , 1.0287017 , 1.0023233 ,\n",
-       "                       1.0151851 , 1.0085427 , 1.0258116 , 1.0106041 , 0.9923284 ,\n",
-       "                       1.0228347 , 1.0039704 , 0.99091953, 0.9823107 , 1.016947  ,\n",
-       "                       1.0215237 , 1.0077496 , 1.0370032 , 0.9993619 , 1.0059168 ,\n",
-       "                       0.9826532 , 1.0285178 , 1.0367659 , 1.0070248 , 1.0034032 ,\n",
-       "                       1.0442673 , 0.99493504, 1.004249  , 1.0280426 , 1.0017502 ,\n",
-       "                       0.988515  , 0.9967804 , 1.0113221 , 1.0154219 , 1.0005659 ,\n",
-       "                       1.0015084 , 0.99482644, 1.0037222 , 1.009357  , 1.0022448 ,\n",
-       "                       0.9883776 , 1.0405829 , 1.0310917 , 0.9933524 , 1.0433357 ,\n",
-       "                       0.9818653 , 1.0083051 , 1.0214539 , 0.9923552 , 1.0301536 ,\n",
-       "                       1.0080968 , 0.9818375 , 0.9923027 , 1.0172874 , 0.98352754,\n",
-       "                       1.0107327 , 1.0151389 , 1.0274394 , 0.983884  , 1.0131593 ,\n",
-       "                       0.99889815, 1.0262815 , 0.96433216, 1.0211636 , 1.0312902 ,\n",
-       "                       1.0047783 , 0.9924638 , 1.0092816 , 0.9730608 , 0.9828258 ,\n",
-       "                       1.0578774 , 1.0200232 , 0.98963594, 0.9977363 , 1.0138032 ,\n",
-       "                       0.9713009 , 1.0304941 , 1.0180733 , 1.0288314 , 0.9973552 ,\n",
-       "                       1.0352954 , 1.0003406 , 0.98862803, 1.0030655 , 0.9941499 ,\n",
-       "                       1.0280615 , 1.0016365 , 1.0180489 , 1.0040277 , 0.9607358 ,\n",
-       "                       1.0037141 , 1.0396017 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 3.43603594e-03,  2.67952736e-02, -3.19796521e-03,  2.77959052e-02,\n",
-       "                       -2.27564160e-05,  3.00053079e-02,  4.48617749e-02,  1.97070669e-02,\n",
-       "                        1.02396915e-02,  1.72215980e-02, -2.75892112e-03, -2.48206849e-03,\n",
-       "                        2.81982850e-02, -1.42260175e-02, -5.90529153e-03,  1.90874767e-02,\n",
-       "                       -2.45346106e-03,  9.29297972e-03,  4.25612368e-03, -1.09480857e-03,\n",
-       "                       -9.13006626e-03,  9.24918726e-02,  2.37285383e-02,  2.87201833e-02,\n",
-       "                       -1.14277247e-02,  1.90680362e-02, -5.39551210e-03,  4.02982607e-02,\n",
-       "                       -2.37562824e-02, -1.89014245e-02,  6.41179970e-03, -8.68414938e-02,\n",
-       "                       -1.77674480e-02, -1.51537284e-02, -3.89129203e-03,  8.26284010e-03,\n",
-       "                        3.10518011e-03,  4.06105816e-03,  2.47969031e-02,  2.05240212e-03,\n",
-       "                        3.35611892e-03,  3.25422660e-02, -3.05853598e-02, -4.77116788e-03,\n",
-       "                        3.65033038e-02,  1.88807324e-02,  2.03111116e-02, -8.56510364e-03,\n",
-       "                        2.65865661e-02,  1.14510898e-02,  1.09779397e-02,  2.67214663e-02,\n",
-       "                       -4.07271273e-03, -2.48218258e-03,  1.46750696e-02,  1.35427015e-02,\n",
-       "                       -4.20185179e-03, -2.13467292e-02, -2.53253579e-02, -5.92954690e-03,\n",
-       "                        1.69605445e-02, -1.05276778e-02,  4.37114276e-02, -1.17301363e-02,\n",
-       "                        2.32506916e-03, -1.35039715e-02, -2.17513070e-02, -3.11144497e-02,\n",
-       "                       -1.43129388e-02, -1.83722116e-02, -1.85610689e-02, -1.80336367e-02,\n",
-       "                       -2.43042596e-02, -1.66123174e-02, -2.11378951e-02, -7.68155232e-03,\n",
-       "                       -2.80298945e-02, -1.23204431e-02, -7.89987575e-03, -3.82007994e-02,\n",
-       "                       -1.71284825e-02,  1.24480464e-02,  2.00545415e-02, -2.08343454e-02,\n",
-       "                        1.72695480e-02,  2.07619276e-02,  2.32151970e-02,  1.25586363e-02,\n",
-       "                        1.58736091e-02, -1.25755509e-03, -2.24005152e-02, -1.52119324e-02,\n",
-       "                       -1.03766266e-02,  1.39645461e-04,  2.10134406e-02, -3.91801484e-02,\n",
-       "                       -1.45232119e-02,  7.89888389e-03,  1.21645015e-02, -2.37555783e-02,\n",
-       "                       -5.84158637e-02,  1.74354929e-02,  1.84537917e-02,  2.19647903e-02,\n",
-       "                        2.39719935e-02,  4.19057608e-02,  1.49248559e-02,  2.69626584e-02,\n",
-       "                        2.89687188e-03, -1.89197827e-02, -3.71705405e-02, -2.37737875e-02,\n",
-       "                       -1.55493245e-02,  2.42294502e-02,  2.57444680e-02,  6.11581467e-03,\n",
-       "                       -2.08301488e-02,  1.96516458e-02, -1.59827378e-02, -8.61831009e-03,\n",
-       "                       -8.13416112e-03, -3.82699817e-02, -3.71116959e-02,  1.84831508e-02,\n",
-       "                        2.84379604e-03,  2.33847219e-02,  6.22194773e-03,  1.49291959e-02,\n",
-       "                       -1.83297582e-02,  1.81909986e-02,  2.15157811e-02, -1.39271868e-02,\n",
-       "                       -2.89638322e-02,  1.10881520e-03,  2.82157250e-02,  1.69136934e-02,\n",
-       "                       -8.84730276e-03,  1.59577336e-02,  2.03611460e-02, -1.65258385e-02,\n",
-       "                        1.78473722e-02, -2.39159130e-02, -1.36998538e-02, -1.71729792e-02,\n",
-       "                       -8.58519524e-02,  5.03670378e-03,  2.72648726e-02, -3.53694940e-03,\n",
-       "                       -3.04428395e-02,  1.27652185e-02, -2.31311023e-02, -2.26891320e-02,\n",
-       "                       -1.19382478e-02,  2.88316160e-02,  1.76204331e-02,  8.55787750e-03,\n",
-       "                        7.90143199e-03,  1.71625689e-02, -2.07985323e-02, -3.48045398e-03,\n",
-       "                        5.18445577e-03,  2.67593451e-02, -1.53288562e-02,  1.13617973e-02,\n",
-       "                        2.61260439e-02,  2.27058493e-02, -9.55688581e-03,  1.24905221e-02,\n",
-       "                        3.68422344e-02, -1.28372628e-02, -3.99196036e-02, -5.12610860e-02,\n",
-       "                        4.03299890e-02, -3.13749239e-02, -4.93869931e-03, -2.10509915e-02,\n",
-       "                       -3.29953581e-02, -5.14064655e-02, -3.82981487e-02, -1.65885733e-03,\n",
-       "                       -2.91457716e-02,  9.37298220e-03, -1.69041883e-02,  3.74249443e-02,\n",
-       "                       -1.32612139e-02,  3.82047258e-02,  8.21203087e-03, -2.99716964e-02,\n",
-       "                        1.45867635e-02,  1.26736856e-03, -8.91199056e-03, -6.25200244e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[-0.01936796, -0.01727297,  0.02798706, ..., -0.00043308,\n",
-       "                        -0.01548608,  0.01052339],\n",
-       "                       [ 0.0217678 ,  0.00543513, -0.0440179 , ...,  0.01921584,\n",
-       "                        -0.00281928, -0.00167585],\n",
-       "                       [-0.02762845,  0.01751809, -0.01518949, ..., -0.00809754,\n",
-       "                        -0.03134314, -0.02594296],\n",
-       "                       ...,\n",
-       "                       [-0.04703904, -0.06811567, -0.04486849, ...,  0.00712049,\n",
-       "                         0.04625429, -0.03096718],\n",
-       "                       [ 0.01649503, -0.0038292 ,  0.03609787, ...,  0.0124039 ,\n",
-       "                        -0.01003346, -0.00525536],\n",
-       "                       [-0.01172524, -0.03267535, -0.0185673 , ...,  0.03373903,\n",
-       "                        -0.01304786, -0.035545  ]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-2.02730969e-02, -1.72163453e-02, -3.96374911e-02,  9.25439177e-04,\n",
-       "                       -4.36484031e-02, -2.00147685e-02, -1.71882827e-02, -3.47368903e-02,\n",
-       "                        5.66399482e-04, -3.84117700e-02, -9.10965260e-03,  2.74756015e-03,\n",
-       "                       -1.80025201e-03,  9.61851515e-03,  4.73078527e-03,  4.82578995e-03,\n",
-       "                       -1.18976750e-03, -3.83619703e-02, -1.34952469e-02, -1.35540264e-02,\n",
-       "                       -1.20289333e-03, -6.07461929e-02, -2.38492060e-02, -7.87904486e-04,\n",
-       "                        9.72030219e-03, -2.31057182e-02,  1.04524931e-02,  6.30092947e-03,\n",
-       "                       -5.97665533e-02, -1.25674810e-03,  7.68401567e-03, -2.56892614e-04,\n",
-       "                        4.59111482e-03, -1.09384181e-02,  4.45268257e-03, -1.41052697e-02,\n",
-       "                       -1.63422208e-02,  4.66172909e-03,  8.07574391e-03, -4.54686359e-02,\n",
-       "                        1.60025507e-02, -9.59658623e-03,  8.28578882e-03, -2.48896070e-02,\n",
-       "                       -2.15898622e-02, -1.55484192e-02,  5.97327203e-03, -2.75620334e-02,\n",
-       "                       -4.66338173e-02, -3.95550160e-07,  8.05350486e-04, -2.27461364e-02,\n",
-       "                       -1.24393404e-02,  8.30512773e-03, -3.38091608e-03, -5.77073358e-03,\n",
-       "                       -2.96839513e-02, -4.13544625e-02,  2.24601105e-03, -1.36652626e-02,\n",
-       "                       -1.96060464e-02, -3.98634113e-02, -1.41905267e-02,  1.77390352e-02,\n",
-       "                       -1.33622885e-02, -6.83417497e-03,  3.87142715e-03, -1.46481190e-02,\n",
-       "                       -7.40471156e-03, -2.74524000e-02, -2.04818901e-02, -6.72868500e-03,\n",
-       "                       -2.39155442e-02, -4.22676764e-02, -1.39555512e-02, -5.67868992e-04,\n",
-       "                       -3.41841839e-02,  2.03465912e-02,  4.76055406e-03, -6.00655982e-03,\n",
-       "                        1.05688032e-02, -4.46136780e-02, -5.22093195e-03, -3.42974998e-02,\n",
-       "                       -4.84602014e-03, -1.54305240e-02, -2.88315918e-02, -2.42710151e-02,\n",
-       "                        6.89190486e-03, -1.06102470e-02,  1.16604185e-02, -6.36164285e-03,\n",
-       "                        1.76626742e-02, -2.76263505e-02, -1.81746799e-02,  1.68347117e-02,\n",
-       "                       -2.11666878e-02, -2.66354941e-02, -1.48490481e-02,  4.81047761e-03,\n",
-       "                        4.19533439e-03, -7.29140267e-03,  5.83578832e-03,  1.83147267e-02,\n",
-       "                       -2.89011337e-02,  1.99224800e-02,  2.33192053e-02, -1.17651206e-02,\n",
-       "                       -9.48132947e-03, -3.80671844e-02, -6.97254250e-03, -5.80234174e-03,\n",
-       "                       -2.95534590e-03, -1.68973021e-02,  6.81369333e-03, -2.98659261e-02,\n",
-       "                       -4.21552286e-02, -6.81099389e-03, -8.78395606e-03, -1.27584357e-02,\n",
-       "                       -2.28257608e-02,  1.10510215e-02, -9.74175520e-03, -5.33285458e-03,\n",
-       "                        2.30560894e-03,  1.34414751e-02, -1.65234245e-02, -3.12085904e-04,\n",
-       "                       -2.15259232e-02,  2.44667870e-03, -4.03293176e-04, -2.27069166e-02,\n",
-       "                       -2.79640649e-02, -1.86381284e-02, -2.70746183e-02, -3.35429721e-02,\n",
-       "                       -1.51718426e-02, -8.92117992e-03,  1.50545919e-02, -1.28146186e-02,\n",
-       "                       -2.84793153e-02,  1.30716702e-02,  1.73362158e-02,  1.04466139e-03,\n",
-       "                       -1.12203090e-02, -5.85076399e-02, -4.21808520e-03,  1.34438546e-02,\n",
-       "                       -1.10811321e-03,  1.77231431e-02, -2.33806157e-03,  2.92738043e-02,\n",
-       "                       -8.34393501e-03,  4.49858513e-03, -9.37382691e-03, -9.02433135e-03,\n",
-       "                       -8.02938081e-03, -1.90042872e-02, -3.04585975e-02, -3.98852862e-02,\n",
-       "                       -4.17789333e-02, -1.66377705e-02, -9.60725360e-03, -1.49319484e-03,\n",
-       "                        1.98501945e-02, -1.57562755e-02, -5.30303158e-02, -6.36109523e-03,\n",
-       "                       -2.39910167e-02,  1.18866307e-03, -1.68753341e-02, -8.01526383e-02,\n",
-       "                       -4.10544388e-02,  7.16660218e-03, -5.72163565e-03, -1.77054796e-02,\n",
-       "                       -3.42064979e-03, -1.32517936e-02,  2.85892412e-02,  2.75228405e-03,\n",
-       "                       -1.05867181e-02, -8.94123688e-03, -7.82309752e-03, -1.23709049e-02,\n",
-       "                        3.22665437e-03,  8.23641941e-03, -1.72391906e-02,  4.11677780e-03,\n",
-       "                       -1.57788415e-02,  2.83235274e-02,  1.20825451e-02,  9.10627469e-03,\n",
-       "                       -1.31589000e-03, -3.31720822e-02, -3.95477414e-02, -1.60696432e-02,\n",
-       "                        1.00599974e-03, -4.13404442e-02,  9.88238957e-03, -2.03417242e-02,\n",
-       "                       -2.17924453e-03, -2.85398886e-02,  5.66473557e-03,  1.53433271e-02,\n",
-       "                        1.60060227e-02, -1.68967023e-02, -2.83081476e-02, -2.64291056e-02,\n",
-       "                       -1.57325342e-02,  9.99413617e-03, -1.07601415e-02, -4.59073186e-02,\n",
-       "                       -7.32598477e-04,  2.11031605e-02, -2.77611818e-02,  1.44040724e-02,\n",
-       "                       -2.24381872e-02, -1.91908900e-03, -4.10638936e-02,  4.44361009e-04,\n",
-       "                       -2.92663351e-02,  2.04936545e-02,  6.32207748e-03, -3.43109742e-02,\n",
-       "                       -1.34509047e-02, -5.81239350e-02,  1.67944189e-02, -2.27752663e-02,\n",
-       "                        5.27992845e-03, -2.44366862e-02, -3.37892435e-02, -8.63631908e-03,\n",
-       "                       -3.40979779e-03, -2.28613541e-02,  1.03544090e-02, -1.03079081e-02,\n",
-       "                       -2.27480102e-02, -8.28197040e-03,  3.05404793e-03,  6.86701527e-03,\n",
-       "                        1.70611078e-03, -6.15844736e-04, -2.25477908e-02, -1.91879030e-02,\n",
-       "                       -1.09220268e-02, -1.05120335e-02,  7.52746407e-03, -6.16745558e-03,\n",
-       "                       -4.02863923e-04,  5.69625199e-03, -4.14612219e-02,  6.82809995e-03,\n",
-       "                        5.11092553e-03, -3.99447940e-02, -1.39821991e-02, -6.75095897e-03,\n",
-       "                       -1.76455695e-02, -3.17825340e-02, -2.47324333e-02, -1.16888667e-02,\n",
-       "                       -4.36839722e-02, -1.80751383e-02, -3.45760658e-02, -1.67294051e-02,\n",
-       "                        1.48514751e-02, -1.07286517e-02,  1.06422873e-02, -4.75126877e-03,\n",
-       "                       -1.78854894e-02, -1.26997447e-02,  1.95242390e-02,  8.47190060e-03,\n",
-       "                       -1.91945845e-04, -9.36024543e-03, -2.00828295e-02, -1.21161118e-02,\n",
-       "                       -4.84504132e-03,  1.75416321e-02, -1.37205329e-02, -2.43347771e-02,\n",
-       "                        4.87131439e-03,  5.27615938e-03, -1.47305001e-02, -2.15904955e-02,\n",
-       "                       -2.33575199e-02, -6.61554048e-03, -2.56092777e-03, -1.26826074e-02,\n",
-       "                        6.26714528e-03,  2.45168898e-03,  1.62922833e-02, -2.74149259e-03,\n",
-       "                       -5.68998680e-02,  1.56744905e-02, -9.12281312e-03,  1.78000834e-02,\n",
-       "                       -3.62905003e-02,  7.11219618e-03, -8.98136874e-04, -1.32871466e-02,\n",
-       "                       -1.43234096e-02,  2.74861394e-03, -4.30019433e-03, -3.29636261e-02,\n",
-       "                       -9.63856187e-03, -1.89240500e-02, -2.61130854e-02, -4.91014943e-02,\n",
-       "                       -1.34954117e-02, -2.40241829e-02, -3.60400975e-03,  8.44172947e-03,\n",
-       "                        2.74142437e-03,  4.92954510e-04,  8.39409605e-03, -1.02594271e-02,\n",
-       "                        1.24602579e-02, -1.07601611e-02, -1.88089907e-02, -6.94376091e-03,\n",
-       "                        1.07152490e-02, -2.51998808e-02, -3.05384048e-04, -2.22030841e-02,\n",
-       "                        2.27522459e-02,  4.93783038e-03,  4.13542788e-04, -5.84202865e-03,\n",
-       "                       -3.55486609e-02,  6.57991180e-03,  2.02657469e-02, -8.46680067e-03,\n",
-       "                        1.85093528e-03, -4.74362914e-03,  1.63280349e-02, -1.74182784e-02,\n",
-       "                        1.33596628e-03,  2.01811492e-02, -2.63537467e-02, -3.98929492e-02,\n",
-       "                        1.01095112e-03,  1.42210315e-03, -1.06787616e-02, -5.45299938e-03,\n",
-       "                       -4.68486287e-02, -1.30118029e-02, -2.19423864e-02, -1.33587964e-04,\n",
-       "                        3.92357528e-04, -8.55443031e-02, -1.89563315e-02, -1.14462031e-02,\n",
-       "                       -6.67757262e-03, -1.09370230e-02, -6.51147170e-03,  2.61508133e-02,\n",
-       "                       -3.04248054e-02, -1.70873217e-02, -3.45333070e-02,  1.14384610e-02,\n",
-       "                        3.57219647e-03,  2.35397834e-03, -1.16945207e-02,  7.03913299e-03,\n",
-       "                       -2.15787832e-02, -2.59910841e-02,  7.86962267e-03, -1.90627389e-02,\n",
-       "                       -9.06899385e-03, -1.13378987e-02, -1.59990210e-02, -2.40502376e-02,\n",
-       "                        7.58200511e-03, -2.38405541e-03, -1.56799629e-02, -6.49033580e-03,\n",
-       "                       -1.45801324e-02, -1.07867159e-02,  5.38399536e-03, -2.63710693e-02,\n",
-       "                        9.06795356e-03, -2.23380048e-02,  6.40973798e-04, -2.08435990e-02,\n",
-       "                       -3.54930665e-03, -2.61892695e-02, -2.43403837e-02,  1.45022171e-02,\n",
-       "                       -1.11294333e-02,  2.22975109e-02, -2.88649276e-02,  8.83427728e-03,\n",
-       "                       -1.71264182e-04, -2.00522859e-02, -2.22262572e-02, -2.64064576e-02,\n",
-       "                       -3.25897448e-02,  3.27128638e-03, -2.39347070e-02, -4.62485291e-02,\n",
-       "                       -2.10695155e-02,  1.28054693e-02, -7.54281729e-02,  4.13044542e-03,\n",
-       "                       -3.69404964e-02, -1.50013510e-02, -3.06449854e-03, -2.17315014e-02,\n",
-       "                        1.08699258e-02, -6.91265427e-03, -2.96049239e-03, -3.04010976e-02,\n",
-       "                       -1.17014181e-02, -1.68799460e-02,  1.65505484e-02, -2.11988632e-02,\n",
-       "                       -5.35056321e-03, -1.93487015e-02, -2.19009928e-02,  9.98965185e-03,\n",
-       "                       -4.48127203e-02, -1.70589089e-02, -1.49650453e-02, -3.53463888e-02,\n",
-       "                        1.08261164e-02,  8.66322126e-03,  1.09988675e-02,  5.07105980e-03,\n",
-       "                       -1.09785991e-02, -8.24725349e-03, -7.05766352e-03, -2.93953102e-02,\n",
-       "                       -1.99896973e-02,  1.87788866e-02,  7.44108669e-03, -1.36157889e-02,\n",
-       "                       -2.46517863e-02, -5.10792900e-03, -3.37912096e-03, -5.00590242e-02,\n",
-       "                       -3.30806077e-02,  3.06895375e-03, -1.39247607e-02, -1.32991076e-02,\n",
-       "                       -2.84706913e-02, -2.39872653e-02, -1.41443796e-02, -2.87217030e-04,\n",
-       "                       -5.37853176e-03, -2.31699413e-03,  1.24481134e-02,  2.81007700e-02,\n",
-       "                        1.63598135e-02, -5.36525249e-03,  4.11947863e-03, -8.87962710e-03,\n",
-       "                        7.01108202e-03, -2.79064216e-02,  1.86030604e-02, -1.84345972e-02,\n",
-       "                        9.82684270e-03, -3.05190459e-02, -1.66466013e-02,  7.72549713e-04,\n",
-       "                        1.54814508e-03,  3.96430143e-04,  3.52570880e-03, -2.07410306e-02,\n",
-       "                       -4.09877440e-03,  2.37259106e-03, -2.46705618e-02,  6.25023479e-03,\n",
-       "                       -1.99402794e-02,  1.34928676e-03,  1.01430779e-02, -3.21491691e-03,\n",
-       "                        6.11917814e-03, -1.14797940e-02, -6.87398063e-03,  1.76550762e-04,\n",
-       "                        1.37082450e-02,  1.26474327e-03,  1.39204646e-02, -2.22524889e-02,\n",
-       "                        8.97681457e-05,  1.88891031e-02, -1.98963750e-02, -2.37500835e-02,\n",
-       "                       -1.45162186e-02, -1.76579468e-02, -4.85126860e-03,  2.73216609e-03,\n",
-       "                       -2.76307054e-02,  1.23566557e-02,  7.31245056e-03,  1.25627527e-02,\n",
-       "                       -5.04276110e-03, -1.19638499e-02, -1.18406191e-02,  6.97168894e-03,\n",
-       "                        1.20525099e-02, -2.73218355e-03, -4.18124301e-03, -1.69247333e-02,\n",
-       "                       -3.16366227e-03, -4.72069159e-03, -3.73938009e-02, -1.98564995e-02,\n",
-       "                       -2.44545266e-02, -2.88034491e-02,  9.98098217e-03,  5.21743670e-03,\n",
-       "                        1.93960182e-02,  8.70525651e-03, -2.18096245e-02, -1.38377806e-03,\n",
-       "                       -4.20307964e-02, -2.30455790e-02, -2.23685917e-03, -3.45625132e-02,\n",
-       "                        2.33609974e-02,  8.25913530e-03, -6.18917309e-03, -2.46669389e-02,\n",
-       "                       -1.78897451e-03,  3.98437865e-03, -8.35600216e-03,  5.77223767e-03,\n",
-       "                       -2.84034549e-03, -3.58642917e-03, -6.18770486e-03, -8.90398864e-03,\n",
-       "                        5.72477176e-04,  1.38246790e-02, -1.21220071e-02, -1.20190228e-03,\n",
-       "                        9.34968051e-03, -2.07452327e-02, -3.20062190e-02, -2.53834538e-02,\n",
-       "                       -1.34317875e-02, -1.97784398e-02, -4.15071892e-03, -2.73645706e-02,\n",
-       "                       -1.25424266e-02,  7.18894880e-03, -2.15254407e-02, -2.59364340e-02,\n",
-       "                       -3.32168043e-02, -5.32375872e-02,  4.73892782e-03, -3.15329432e-02,\n",
-       "                        1.17336446e-03,  1.20503269e-02,  8.81805178e-03, -1.79140083e-02,\n",
-       "                       -6.54526567e-03,  1.82500295e-03,  1.05281603e-02,  1.61723625e-02,\n",
-       "                        2.05972083e-02, -1.97964087e-02,  6.55350232e-06,  1.87991858e-02,\n",
-       "                        2.06013061e-02, -1.17481954e-03,  5.10920864e-03, -6.09265687e-03,\n",
-       "                       -1.72222387e-02, -7.33022811e-04, -1.90670881e-02, -3.63333821e-02,\n",
-       "                       -1.54390512e-02,  7.49356346e-03,  2.69417036e-02, -1.88536178e-02,\n",
-       "                        9.53572243e-03, -8.18822626e-03,  2.66291890e-02, -3.50175761e-02,\n",
-       "                       -1.75517949e-03, -3.63707147e-03, -2.96578407e-02,  4.85087978e-03,\n",
-       "                        2.29683891e-02, -1.07311681e-02, -5.93151152e-03, -6.43233676e-03,\n",
-       "                       -9.02256090e-03,  5.71041647e-03, -1.11940848e-02, -7.63751753e-03,\n",
-       "                       -2.96609430e-03, -1.74308917e-03, -5.73345507e-03, -4.00085747e-02,\n",
-       "                       -1.08280014e-02,  2.45840847e-03, -1.65827647e-02, -3.04641202e-02,\n",
-       "                       -1.91303175e-02, -6.34902045e-02, -2.71443985e-02, -8.48556217e-03,\n",
-       "                       -5.78744244e-03, -1.78982951e-02, -1.84806883e-02, -1.90523081e-02,\n",
-       "                        4.01735492e-03,  2.23109615e-03, -1.74209196e-02,  1.19515928e-03,\n",
-       "                        1.03071714e-02, -8.02234039e-02,  1.24981962e-02, -1.32194627e-02,\n",
-       "                       -6.72617368e-03,  2.29350757e-03,  2.68838392e-03, -1.07558258e-02,\n",
-       "                       -7.45773548e-03, -3.24521516e-03, -3.60023528e-02, -5.36000133e-02,\n",
-       "                        5.89652080e-03, -3.65445241e-02,  1.57442577e-02, -1.11889504e-02,\n",
-       "                        2.01796740e-02, -1.89142656e-02,  3.69664375e-03, -9.64444969e-03,\n",
-       "                       -1.99025124e-02, -5.27735911e-02, -6.18071482e-03,  1.96429584e-02,\n",
-       "                        9.04919766e-03, -2.44172849e-03,  2.42983419e-02,  7.77297560e-03,\n",
-       "                        1.86291113e-02,  1.43718664e-02,  4.88520274e-03, -1.74652059e-02,\n",
-       "                       -3.91945206e-02, -2.85394844e-02, -6.52817870e-03, -4.53838333e-03,\n",
-       "                        5.24704205e-03, -3.72513458e-02, -2.26468854e-02,  2.32792087e-03,\n",
-       "                        1.88641832e-03,  5.58300922e-03, -9.78803448e-03,  2.33869310e-02,\n",
-       "                       -4.18912135e-02, -3.19908485e-02, -8.90049245e-03, -1.94256715e-02,\n",
-       "                        6.74062036e-03, -1.12374388e-02,  1.40834944e-02, -1.58932773e-04,\n",
-       "                       -3.85522889e-03, -2.52304543e-02,  1.09773213e-02, -3.49628739e-02,\n",
-       "                        2.02956498e-02, -1.83961205e-02, -9.16141830e-03, -6.89430069e-03,\n",
-       "                       -1.82250026e-03,  3.91215971e-03, -3.02790329e-02,  4.85412357e-03,\n",
-       "                        5.21492213e-03, -2.76922695e-02,  7.46305939e-03,  4.57040616e-04,\n",
-       "                       -2.80272998e-02,  5.70539059e-03, -2.35484336e-02,  5.97323524e-03,\n",
-       "                       -3.80400121e-02, -2.14953162e-03, -5.47003699e-03, -2.85517797e-03,\n",
-       "                        1.21851694e-02,  1.71587861e-03, -2.77664978e-02, -2.20162105e-02,\n",
-       "                        8.68351292e-03, -2.04854421e-02,  3.65737732e-03, -4.93340136e-04,\n",
-       "                       -6.58130087e-03,  8.45880434e-03,  9.36099607e-03, -6.69793831e-03,\n",
-       "                       -1.45707000e-02, -1.48070045e-02,  2.04449962e-03,  2.96859490e-03,\n",
-       "                       -2.96394285e-02,  1.08581251e-02, -1.75250992e-02,  1.53381256e-02,\n",
-       "                       -2.64075790e-02,  1.73933804e-02,  6.86512422e-03, -1.24971373e-02,\n",
-       "                        9.37248301e-03, -8.76329548e-04, -2.70201601e-02, -1.37452129e-02,\n",
-       "                       -2.48217899e-02, -2.12847032e-02, -2.02346016e-02,  4.97383205e-03,\n",
-       "                       -1.45821357e-02, -6.21638354e-03,  1.60615034e-02,  8.42541736e-03,\n",
-       "                       -1.73121586e-03,  1.84763055e-02,  1.38618983e-02,  6.79083809e-04,\n",
-       "                       -3.76517028e-02, -5.53824613e-03, -1.61262881e-02,  2.18251087e-02,\n",
-       "                       -1.41914962e-02, -2.67606135e-03, -9.26637370e-03,  1.47592397e-02,\n",
-       "                       -8.86621326e-03,  1.54802157e-02,  3.15189059e-03,  9.82165709e-03,\n",
-       "                        3.27752903e-03,  2.13089865e-02, -2.70583443e-02, -7.42953736e-03,\n",
-       "                       -2.50007659e-02, -1.14361225e-02, -9.81700886e-03, -8.11999850e-03,\n",
-       "                       -1.84244197e-02, -2.75552347e-02, -2.94755609e-03, -6.37403829e-03,\n",
-       "                       -1.25843631e-02, -3.07683572e-02, -3.49259959e-03,  7.75923207e-03,\n",
-       "                        1.38970942e-03, -2.76233349e-02,  6.77595520e-03,  1.63823506e-03,\n",
-       "                        5.47163363e-05, -2.44897380e-02, -6.46863133e-03, -7.09528523e-03,\n",
-       "                       -1.90487560e-02, -1.02440035e-02,  4.92857816e-03, -5.28441332e-02],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[-0.01873498,  0.02679233, -0.07056118, ...,  0.00398566,\n",
-       "                         0.02154048,  0.01009107],\n",
-       "                       [ 0.0023489 ,  0.03306963, -0.01094123, ..., -0.01874584,\n",
-       "                         0.02311078, -0.03246025],\n",
-       "                       [ 0.01395899, -0.01199064,  0.03589186, ..., -0.00253369,\n",
-       "                         0.00015564,  0.01200298],\n",
-       "                       ...,\n",
-       "                       [-0.0110327 ,  0.01484329, -0.02025447, ..., -0.01528619,\n",
-       "                        -0.00044155, -0.00768675],\n",
-       "                       [-0.00518769, -0.0190341 ,  0.00541804, ..., -0.04019772,\n",
-       "                         0.00462436,  0.00114423],\n",
-       "                       [-0.01649309, -0.022153  ,  0.00116507, ...,  0.00092028,\n",
-       "                         0.0192393 , -0.00191616]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.00875727,  0.00844772, -0.00638411,  0.00979791,  0.00631264,\n",
-       "                        0.01925564,  0.01764304,  0.01935392, -0.00319467,  0.00851334,\n",
-       "                       -0.00302966,  0.0017067 ,  0.01643271,  0.00013498,  0.01369039,\n",
-       "                        0.0075578 , -0.00901533,  0.00556126,  0.00525395,  0.00601836,\n",
-       "                       -0.00113361,  0.06682169,  0.01941927,  0.02516656, -0.00994125,\n",
-       "                        0.01200988, -0.01820031,  0.02928668, -0.02253202, -0.02094638,\n",
-       "                       -0.00215082, -0.04950898, -0.01214268, -0.00775701, -0.00567762,\n",
-       "                        0.00155565, -0.00412368,  0.01876251,  0.01938802,  0.01385835,\n",
-       "                       -0.00753018,  0.01650311, -0.01765283, -0.0175887 ,  0.01734858,\n",
-       "                        0.02780465,  0.01827991, -0.00259388,  0.00857305,  0.00877466,\n",
-       "                        0.01454839,  0.0185861 ,  0.00305506, -0.01850432,  0.00327083,\n",
-       "                        0.01592625, -0.02423782, -0.02307841, -0.02633888, -0.0118603 ,\n",
-       "                        0.00033595, -0.01579602,  0.03260851, -0.01295588,  0.00152569,\n",
-       "                       -0.01920031, -0.02093989, -0.00928893, -0.01716848,  0.00329048,\n",
-       "                       -0.03092022, -0.00813805, -0.02732819, -0.02910862, -0.00923078,\n",
-       "                       -0.02219846, -0.00552739, -0.01209938, -0.01768913, -0.03044659,\n",
-       "                        0.00433539,  0.01937628,  0.02478183, -0.01579314,  0.02210511,\n",
-       "                        0.02426847,  0.03000535,  0.02216269,  0.00996924, -0.01001132,\n",
-       "                       -0.01479168, -0.02210437, -0.01065945, -0.00187033,  0.00778272,\n",
-       "                       -0.03885601, -0.0236426 , -0.0003459 ,  0.00390934, -0.01730723,\n",
-       "                       -0.04346146,  0.00464112,  0.0187731 ,  0.02091447,  0.00887477,\n",
-       "                        0.03617691,  0.01600332,  0.01941076, -0.00550917, -0.02156864,\n",
-       "                       -0.02627692, -0.02292657, -0.0195347 ,  0.00989026,  0.01694178,\n",
-       "                       -0.00581628, -0.01517762,  0.02600943, -0.01791165, -0.00931305,\n",
-       "                       -0.01767998, -0.01953321, -0.0226922 ,  0.02001677, -0.00639939,\n",
-       "                        0.03065447,  0.0072672 ,  0.01034329, -0.01980901,  0.01084015,\n",
-       "                        0.01425455, -0.01764459, -0.02957735, -0.00409907,  0.0226249 ,\n",
-       "                        0.02194628, -0.01227286,  0.01358387,  0.02082218, -0.02336786,\n",
-       "                        0.01717109, -0.01016011, -0.01469659, -0.01017225, -0.05480007,\n",
-       "                        0.00403081,  0.02459577,  0.00297031, -0.01252157,  0.0100858 ,\n",
-       "                       -0.02109952, -0.01984255,  0.0088863 ,  0.02306723,  0.00677673,\n",
-       "                        0.00027088,  0.00272076,  0.01193484, -0.00655524, -0.02220269,\n",
-       "                        0.00476494,  0.02373325, -0.00927185,  0.0072583 ,  0.021671  ,\n",
-       "                        0.00589487, -0.00776884,  0.01278425,  0.024796  , -0.00481928,\n",
-       "                       -0.02029314, -0.03756877,  0.03063949, -0.0084965 ,  0.00194776,\n",
-       "                       -0.02170036, -0.03632088, -0.02481564, -0.02177641,  0.0025987 ,\n",
-       "                       -0.01534427,  0.01370342, -0.0128414 ,  0.02587708, -0.01888825,\n",
-       "                        0.02439466,  0.01731913, -0.00958412,  0.01613715,  0.01427922,\n",
-       "                       -0.01684757, -0.00175023], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (2): TFXLNetLayer(\n",
-       "            (rel_attn): TFXLNetRelativeAttention(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.0217174 , 1.0251529 , 1.0009836 , 1.0462228 , 1.0023384 ,\n",
-       "                       1.0702455 , 1.0446848 , 1.0141752 , 1.016957  , 1.033185  ,\n",
-       "                       1.0181712 , 1.0153837 , 0.9992023 , 1.0347466 , 1.0211351 ,\n",
-       "                       1.0018849 , 1.0121537 , 0.99940306, 1.0072032 , 1.0192038 ,\n",
-       "                       1.0209839 , 1.187853  , 1.0392752 , 1.0235384 , 1.0065316 ,\n",
-       "                       1.022949  , 1.0093213 , 1.0211647 , 1.0060023 , 1.0248559 ,\n",
-       "                       1.0059446 , 1.0761709 , 1.0173205 , 1.0236268 , 0.98880196,\n",
-       "                       1.0349165 , 1.0256321 , 1.0104129 , 1.0246964 , 0.9955374 ,\n",
-       "                       1.0396379 , 1.0044645 , 1.028682  , 1.0409732 , 1.0322639 ,\n",
-       "                       1.0058585 , 1.0145588 , 0.99829394, 1.0104554 , 1.0500244 ,\n",
-       "                       1.0286031 , 1.0021374 , 1.0364661 , 0.9966459 , 1.022384  ,\n",
-       "                       1.017586  , 0.98369807, 1.0039334 , 1.0339525 , 1.0041248 ,\n",
-       "                       1.0204359 , 0.98249644, 1.032949  , 1.0197221 , 1.0263952 ,\n",
-       "                       0.9926133 , 0.99735445, 1.0876801 , 1.0224211 , 1.0198096 ,\n",
-       "                       1.0506258 , 1.0010437 , 0.99980325, 1.0300628 , 1.0086097 ,\n",
-       "                       1.0204959 , 1.0012923 , 1.0035007 , 0.9980045 , 1.0441691 ,\n",
-       "                       1.0204487 , 0.9990266 , 0.9966284 , 1.0186629 , 1.0485342 ,\n",
-       "                       1.0253004 , 1.0131625 , 1.0052114 , 1.0252738 , 1.0075058 ,\n",
-       "                       1.0343914 , 1.0002061 , 0.9924983 , 1.0421573 , 1.0040683 ,\n",
-       "                       1.0187975 , 1.0190364 , 1.0011268 , 0.99671876, 1.0547765 ,\n",
-       "                       1.025715  , 1.0177215 , 1.0108784 , 1.0226917 , 1.0155568 ,\n",
-       "                       0.9973636 , 1.0079739 , 1.0572509 , 1.0273353 , 1.0160165 ,\n",
-       "                       1.0249956 , 1.0097992 , 1.0126355 , 0.99393314, 1.0213517 ,\n",
-       "                       1.0287503 , 1.0278797 , 1.0104443 , 1.0232205 , 1.005057  ,\n",
-       "                       0.9942467 , 1.033091  , 1.0228969 , 1.007807  , 1.0081193 ,\n",
-       "                       1.0374564 , 0.9998273 , 1.0164163 , 1.0237519 , 1.0112252 ,\n",
-       "                       1.0251505 , 0.99518573, 1.0173032 , 1.017753  , 1.0192963 ,\n",
-       "                       1.0150547 , 0.99565893, 1.0140896 , 1.003712  , 1.000266  ,\n",
-       "                       1.001154  , 1.0525979 , 1.0441524 , 1.0055293 , 1.0802695 ,\n",
-       "                       1.003204  , 1.0219046 , 1.0287489 , 0.9960544 , 1.0255774 ,\n",
-       "                       1.026497  , 0.98832685, 0.9979249 , 1.0186322 , 1.0093694 ,\n",
-       "                       1.0192312 , 1.0199887 , 1.0398    , 0.9829798 , 1.0415385 ,\n",
-       "                       1.0186274 , 1.0384295 , 0.983487  , 1.0242232 , 1.0270193 ,\n",
-       "                       1.0064057 , 0.9939754 , 1.0075631 , 1.0031563 , 0.99732876,\n",
-       "                       1.0779532 , 1.0452689 , 1.0039006 , 0.98994976, 1.015347  ,\n",
-       "                       0.9903972 , 1.0386693 , 1.0151427 , 1.0464522 , 1.0083725 ,\n",
-       "                       1.038116  , 0.99612683, 1.0135477 , 1.0054603 , 1.0062294 ,\n",
-       "                       1.028863  , 1.0152918 , 1.0330389 , 1.0156182 , 0.9869547 ,\n",
-       "                       1.0048147 , 1.0276642 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 3.06162308e-03,  1.86115298e-02, -1.31628076e-02,  1.06461560e-02,\n",
-       "                       -4.11694031e-03,  3.30818594e-02,  4.02924716e-02,  6.59284927e-03,\n",
-       "                        3.38024739e-03,  4.59420588e-03,  4.78615239e-03,  6.62528677e-04,\n",
-       "                        6.70902058e-03, -2.52860878e-02, -1.48927094e-02,  4.62446781e-03,\n",
-       "                        6.38968835e-04,  7.71211181e-03,  7.99407065e-03,  1.95953436e-02,\n",
-       "                        7.16714747e-03,  9.20696408e-02,  2.76485197e-02,  5.97401522e-03,\n",
-       "                       -1.40910083e-02,  1.01603949e-02,  6.01712102e-03,  2.28405371e-02,\n",
-       "                       -7.97405839e-03, -1.86992937e-03,  5.27088996e-04, -7.22015649e-02,\n",
-       "                       -1.31994477e-02, -1.27156395e-02,  1.02564795e-02,  1.32799195e-02,\n",
-       "                       -1.20413559e-03, -4.15205443e-03, -9.66252945e-03, -1.11156877e-03,\n",
-       "                        1.75651070e-02,  2.47061532e-02, -3.22925635e-02,  6.95932051e-03,\n",
-       "                        9.56356898e-03, -1.50442692e-02,  1.64015479e-02,  5.24280732e-03,\n",
-       "                        3.17716822e-02, -5.53713785e-03, -1.06571664e-04,  9.43160616e-03,\n",
-       "                        9.63144936e-03, -5.56897651e-03,  1.13199570e-03,  1.25727803e-02,\n",
-       "                       -6.73677167e-03, -1.04960650e-02,  9.34011885e-04, -1.03336098e-02,\n",
-       "                        1.40871098e-02, -1.59239639e-02,  2.29182914e-02,  6.17692422e-05,\n",
-       "                       -3.35305231e-03,  7.19197124e-05, -1.17311468e-02, -3.22010480e-02,\n",
-       "                        5.37329866e-03, -9.16972011e-03, -4.40349337e-03, -1.91465244e-02,\n",
-       "                       -4.95484797e-03, -2.49018818e-02, -1.20322015e-02, -1.08357696e-02,\n",
-       "                       -1.00547625e-02, -2.94450088e-03,  5.77213243e-03, -1.24915829e-02,\n",
-       "                       -1.69879310e-02,  1.47916187e-04, -3.30431107e-03,  3.74537683e-03,\n",
-       "                       -6.71420526e-03,  2.85739498e-03, -5.88525691e-05,  4.38376237e-03,\n",
-       "                        8.50109477e-03,  5.33880573e-03, -1.12952897e-02, -8.53516534e-03,\n",
-       "                       -2.40853615e-03, -3.99530260e-03,  1.60534661e-02, -5.62854763e-03,\n",
-       "                       -3.77693970e-04,  1.23287737e-02,  2.00105105e-02, -1.42252818e-02,\n",
-       "                       -3.90752554e-02, -5.64790098e-03, -5.97694074e-04,  1.19732199e-02,\n",
-       "                        1.37916040e-02,  4.39003063e-03,  1.62776583e-03,  6.12852676e-03,\n",
-       "                       -2.70602433e-03, -1.48238158e-02, -2.96681095e-02, -1.44181950e-02,\n",
-       "                        8.72193649e-03,  1.24358824e-02,  1.52108464e-02,  1.06202485e-02,\n",
-       "                       -8.53042875e-05, -9.98889934e-03, -5.43701509e-03,  8.10975954e-03,\n",
-       "                        3.15054669e-03, -5.17641008e-03, -7.31557794e-03,  3.30039300e-03,\n",
-       "                        2.07848335e-03,  1.37262873e-03, -5.56092802e-03,  1.41495364e-02,\n",
-       "                       -1.32099232e-02,  1.03573129e-03,  1.63320545e-02, -6.14388322e-04,\n",
-       "                       -9.34190303e-03,  7.67122116e-03,  6.12509670e-04,  2.17823172e-03,\n",
-       "                       -5.67103876e-03,  1.09491777e-02,  6.37806486e-03,  5.85651305e-03,\n",
-       "                        2.79139308e-03, -3.87229025e-03, -3.13691562e-03, -4.91503440e-03,\n",
-       "                       -6.06452599e-02,  9.29491594e-03,  9.19607189e-03,  3.91248288e-03,\n",
-       "                       -1.18186893e-02,  2.82759406e-03, -9.46957152e-03, -1.18294284e-02,\n",
-       "                       -2.55618896e-03,  6.68200152e-03,  6.41459227e-03,  1.52630685e-02,\n",
-       "                        9.96001530e-03,  5.96510945e-03, -7.90067762e-03,  4.33216989e-03,\n",
-       "                        7.29350885e-03,  6.58101402e-03, -4.42307536e-03,  4.33848379e-03,\n",
-       "                        6.38639415e-03,  1.33568821e-02, -1.26913534e-02,  3.80871398e-03,\n",
-       "                        1.93254575e-02, -1.42886303e-02, -7.10068271e-03, -3.35032977e-02,\n",
-       "                        9.40572284e-03, -1.38211465e-02, -1.02185896e-02, -1.26630822e-02,\n",
-       "                       -2.23257244e-02, -1.92523561e-02, -3.01279314e-02,  2.53150007e-03,\n",
-       "                       -1.12993028e-02,  9.79227107e-03, -7.08208373e-03,  2.55916603e-02,\n",
-       "                        2.86390772e-03,  3.20686027e-02, -2.30147969e-03, -1.51887033e-02,\n",
-       "                        1.19875781e-02, -1.32277906e-02, -2.15940084e-03,  5.77947544e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-4.81137522e-02,  1.51717179e-02,  1.91733846e-03, ...,\n",
-       "                       -2.15504169e-02, -8.80663171e-02, -5.14865741e-02],\n",
-       "                      [-2.29916703e-02, -5.24781160e-02, -6.03806712e-02, ...,\n",
-       "                       -8.62903253e-05, -4.47642431e-03,  7.90688917e-02],\n",
-       "                      [ 1.12126365e-01,  3.48391198e-02, -5.96038513e-02, ...,\n",
-       "                        1.68225244e-02,  2.80025396e-02, -1.32860793e-02],\n",
-       "                      ...,\n",
-       "                      [ 6.81161508e-03,  5.21353967e-02,  2.45775543e-02, ...,\n",
-       "                        2.16543674e-02,  8.77359789e-03, -2.10702680e-02],\n",
-       "                      [ 1.58886798e-02,  1.51693877e-02, -9.94204450e-03, ...,\n",
-       "                        9.39156860e-03,  1.01508182e-02, -3.07718641e-03],\n",
-       "                      [-2.86811162e-02, -2.62935236e-02,  1.51471458e-02, ...,\n",
-       "                        1.70202483e-03,  3.09125576e-02, -4.09694621e-03]],\n",
-       "              \n",
-       "                     [[ 3.37063894e-02, -1.63897295e-02,  6.96284231e-03, ...,\n",
-       "                       -7.82956369e-03,  5.46475984e-02, -4.21468318e-02],\n",
-       "                      [ 3.24924961e-02,  2.07625646e-02, -6.96102679e-02, ...,\n",
-       "                       -6.44863173e-02, -7.28632137e-02,  4.93840724e-02],\n",
-       "                      [ 3.49648520e-02,  4.40866686e-02,  4.10161763e-02, ...,\n",
-       "                        3.23176309e-02,  5.57911135e-02,  4.16656248e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.62646729e-02, -2.21277811e-02,  1.90648821e-03, ...,\n",
-       "                        3.49440463e-02, -5.95782511e-02,  4.22822535e-02],\n",
-       "                      [-3.51860039e-02, -2.13885438e-02,  4.00259346e-02, ...,\n",
-       "                       -4.20402475e-02, -1.41877644e-02,  4.43436131e-02],\n",
-       "                      [ 2.43175644e-02,  1.39741208e-02,  3.49960700e-02, ...,\n",
-       "                        1.55997453e-02, -1.60364714e-02,  2.10535321e-02]],\n",
-       "              \n",
-       "                     [[ 3.32882740e-02, -1.96926738e-03, -1.55992284e-02, ...,\n",
-       "                        8.14008191e-02,  1.38205756e-02, -1.51603227e-03],\n",
-       "                      [ 3.59372562e-03,  2.50430964e-03,  2.58572530e-02, ...,\n",
-       "                        3.24064456e-02,  2.29581203e-02, -1.92896519e-02],\n",
-       "                      [ 1.43919000e-02,  1.51500767e-02, -2.80712657e-02, ...,\n",
-       "                        5.12368865e-02,  9.74925887e-03, -5.37651917e-03],\n",
-       "                      ...,\n",
-       "                      [ 3.90181039e-03,  3.26900743e-02,  9.40683577e-03, ...,\n",
-       "                        8.45516333e-04,  8.35157279e-03, -1.66299427e-03],\n",
-       "                      [ 3.23605747e-03, -6.58250833e-03,  1.32873598e-02, ...,\n",
-       "                        1.53540606e-02, -2.06754059e-02,  1.22069884e-02],\n",
-       "                      [ 3.42889782e-03, -5.71477169e-04, -1.83276646e-02, ...,\n",
-       "                        2.04541571e-02, -1.27389310e-02,  1.50542082e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 3.72777767e-02, -5.42798452e-02,  3.09000630e-03, ...,\n",
-       "                       -2.05895375e-03,  4.08504084e-02, -3.67017463e-02],\n",
-       "                      [ 2.81978864e-02,  2.46209782e-02, -5.35734519e-02, ...,\n",
-       "                       -9.81846265e-03, -6.76249191e-02,  4.47309017e-02],\n",
-       "                      [-1.71915013e-02, -1.91664733e-02, -3.03540640e-02, ...,\n",
-       "                       -1.37790563e-02,  8.39917455e-03,  1.95486043e-02],\n",
-       "                      ...,\n",
-       "                      [ 4.39666398e-03,  1.65959522e-02,  4.79898555e-03, ...,\n",
-       "                        3.13505344e-03,  4.33057360e-03, -4.27076186e-04],\n",
-       "                      [ 1.57838222e-02,  2.59035290e-03,  1.50174825e-02, ...,\n",
-       "                       -5.15849795e-04, -3.30348127e-03,  6.75350800e-03],\n",
-       "                      [ 1.95149593e-02, -9.67641245e-04,  9.85140260e-03, ...,\n",
-       "                        1.70841943e-02, -2.58299336e-02,  7.08191376e-03]],\n",
-       "              \n",
-       "                     [[-1.05452873e-02,  2.40855291e-02, -3.36844176e-02, ...,\n",
-       "                       -4.62573469e-02, -1.49153080e-03,  6.79138154e-02],\n",
-       "                      [ 4.84222826e-03,  1.13523463e-02,  3.25595327e-02, ...,\n",
-       "                       -2.86528356e-02,  3.52971703e-02, -3.56208794e-02],\n",
-       "                      [-1.18880443e-01, -3.07634361e-02,  2.19099987e-02, ...,\n",
-       "                       -5.25062606e-02, -4.03628685e-02, -4.92011150e-03],\n",
-       "                      ...,\n",
-       "                      [-1.91243179e-02, -4.92599839e-03, -8.33099522e-03, ...,\n",
-       "                       -3.46056446e-02,  3.18350689e-03, -8.50734068e-04],\n",
-       "                      [ 3.76518033e-02,  3.41102369e-02, -5.76552041e-02, ...,\n",
-       "                        1.96692292e-02,  4.78661954e-02, -4.84392270e-02],\n",
-       "                      [-3.47922626e-03, -1.39467446e-02,  2.18370315e-02, ...,\n",
-       "                       -2.02156343e-02,  1.19114574e-02, -2.46745106e-02]],\n",
-       "              \n",
-       "                     [[ 6.54376950e-03,  3.02088279e-02, -5.81995286e-02, ...,\n",
-       "                       -7.68325403e-02,  6.12843484e-02,  3.78722101e-02],\n",
-       "                      [ 9.42414347e-03, -5.04070967e-02, -2.94177290e-02, ...,\n",
-       "                       -5.24935313e-03, -6.23170584e-02,  4.45930520e-03],\n",
-       "                      [-4.07862365e-02, -3.37571464e-02,  2.19498202e-02, ...,\n",
-       "                        7.29233166e-03, -5.56845069e-02, -2.92345323e-02],\n",
-       "                      ...,\n",
-       "                      [ 2.81625874e-02, -1.72678512e-02, -2.19437256e-02, ...,\n",
-       "                        8.62976443e-03, -4.02266011e-02,  2.57315841e-02],\n",
-       "                      [-8.77696928e-03, -1.04554817e-02,  6.81386003e-03, ...,\n",
-       "                       -2.19753687e-03,  5.88407274e-03, -7.93407857e-03],\n",
-       "                      [-1.05217602e-02,  9.43640154e-03, -6.24175705e-02, ...,\n",
-       "                       -3.55250388e-02, -6.71412144e-03,  2.17702035e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.00293928, -0.0109784 , -0.00407117, ...,  0.06720299,\n",
-       "                        0.00220658, -0.01070606],\n",
-       "                      [ 0.02917756,  0.01057504,  0.0149243 , ..., -0.02115533,\n",
-       "                       -0.03522046,  0.00336731],\n",
-       "                      [ 0.0072771 ,  0.00142857, -0.00595553, ..., -0.01464644,\n",
-       "                       -0.02712567, -0.00692069],\n",
-       "                      ...,\n",
-       "                      [ 0.00619581,  0.00026811,  0.03295753, ..., -0.04673641,\n",
-       "                        0.00351168, -0.01507777],\n",
-       "                      [ 0.00376089,  0.0103442 , -0.0184721 , ..., -0.01987653,\n",
-       "                        0.01558526, -0.00548268],\n",
-       "                      [-0.00744516, -0.00281895, -0.01078221, ...,  0.00610567,\n",
-       "                       -0.01862272,  0.00915155]],\n",
-       "              \n",
-       "                     [[-0.02782594, -0.0039578 ,  0.07950357, ..., -0.02373442,\n",
-       "                       -0.05951536, -0.01053701],\n",
-       "                      [-0.00720376,  0.01994296,  0.05216808, ...,  0.00521234,\n",
-       "                        0.04455427, -0.03069338],\n",
-       "                      [ 0.00991428,  0.02514814,  0.03120906, ..., -0.03899101,\n",
-       "                        0.017482  ,  0.02697489],\n",
-       "                      ...,\n",
-       "                      [-0.05309541, -0.00619643, -0.05110249, ..., -0.0535032 ,\n",
-       "                        0.04024338, -0.0384163 ],\n",
-       "                      [-0.02037921, -0.01771634,  0.03101053, ..., -0.00896538,\n",
-       "                        0.00090393,  0.01484353],\n",
-       "                      [-0.00921424,  0.0160069 , -0.00579366, ...,  0.02471853,\n",
-       "                       -0.01938148, -0.00959876]],\n",
-       "              \n",
-       "                     [[ 0.00509293, -0.02846905, -0.06832287, ...,  0.01379875,\n",
-       "                        0.01978015,  0.00669768],\n",
-       "                      [-0.00238889, -0.03830735, -0.07192513, ...,  0.02121064,\n",
-       "                       -0.02788975,  0.04276541],\n",
-       "                      [ 0.01299973, -0.02591552, -0.03836127, ..., -0.0018938 ,\n",
-       "                       -0.0080095 , -0.04260714],\n",
-       "                      ...,\n",
-       "                      [-0.00532516,  0.0437762 , -0.01197581, ..., -0.00461747,\n",
-       "                        0.02074965, -0.03320842],\n",
-       "                      [ 0.01869402,  0.00926195, -0.03418873, ...,  0.01149853,\n",
-       "                        0.00745646, -0.01764916],\n",
-       "                      [-0.00859777, -0.03077263,  0.02499374, ..., -0.03628961,\n",
-       "                        0.02713079, -0.02098218]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.00255963, -0.00792341, -0.01311781, ..., -0.01471253,\n",
-       "                        0.00773418,  0.0028765 ],\n",
-       "                      [-0.01693467, -0.01684431,  0.01218338, ..., -0.00594166,\n",
-       "                        0.01953993, -0.00055485],\n",
-       "                      [ 0.00725681, -0.01396647, -0.01421928, ..., -0.02032903,\n",
-       "                        0.00128055, -0.01244337],\n",
-       "                      ...,\n",
-       "                      [ 0.04216336, -0.01187535,  0.03545079, ...,  0.05167695,\n",
-       "                       -0.03074895,  0.02474623],\n",
-       "                      [ 0.01909629,  0.00693916,  0.00172379, ...,  0.0171647 ,\n",
-       "                        0.01141954, -0.00754204],\n",
-       "                      [ 0.03014773,  0.00731963,  0.05709034, ...,  0.02683626,\n",
-       "                       -0.02091517,  0.02028517]],\n",
-       "              \n",
-       "                     [[ 0.0074964 , -0.00856717,  0.02979018, ...,  0.03537965,\n",
-       "                        0.00690144, -0.0624721 ],\n",
-       "                      [-0.00064552, -0.02535983, -0.01051644, ..., -0.00985349,\n",
-       "                        0.00672527,  0.04417474],\n",
-       "                      [ 0.06582981,  0.01555467,  0.0155565 , ...,  0.03326725,\n",
-       "                        0.01875504, -0.01086921],\n",
-       "                      ...,\n",
-       "                      [ 0.01764918,  0.02719252,  0.02960117, ...,  0.03690163,\n",
-       "                        0.02842108, -0.02001433],\n",
-       "                      [-0.03356929, -0.02933718,  0.04107409, ..., -0.02876418,\n",
-       "                       -0.03791892,  0.05297501],\n",
-       "                      [ 0.04199879,  0.03726116,  0.02551803, ...,  0.02520091,\n",
-       "                       -0.0426075 ,  0.04186616]],\n",
-       "              \n",
-       "                     [[-0.03414296,  0.00657422,  0.04984473, ..., -0.02375824,\n",
-       "                       -0.05163334, -0.02703283],\n",
-       "                      [-0.00742817,  0.03634953, -0.00377172, ..., -0.01132715,\n",
-       "                        0.03730771, -0.01465937],\n",
-       "                      [-0.02270306,  0.00535163, -0.02442615, ..., -0.06195223,\n",
-       "                        0.00054794,  0.0272242 ],\n",
-       "                      ...,\n",
-       "                      [-0.0495413 ,  0.02071496, -0.01031443, ..., -0.08232274,\n",
-       "                        0.0433554 , -0.05423561],\n",
-       "                      [ 0.02054976,  0.02180232, -0.00914375, ...,  0.02327339,\n",
-       "                        0.01977414, -0.02690084],\n",
-       "                      [ 0.00422481,  0.00880208,  0.04090318, ...,  0.03197616,\n",
-       "                        0.00156149, -0.00067797]]], dtype=float32)>\n",
-       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[ 0.00665421, -0.00124323,  0.00077421, ...,  0.03188131,\n",
-       "                        0.0309326 , -0.01376203],\n",
-       "                      [ 0.05372431,  0.03682763, -0.01067041, ..., -0.00807943,\n",
-       "                       -0.00639856,  0.01343099],\n",
-       "                      [ 0.01893931, -0.01041871, -0.0559322 , ...,  0.01476059,\n",
-       "                       -0.02740676,  0.00521749],\n",
-       "                      ...,\n",
-       "                      [ 0.01157789, -0.00384533,  0.01601262, ...,  0.03651634,\n",
-       "                       -0.02067197,  0.02215986],\n",
-       "                      [ 0.03778082, -0.01276081,  0.03520799, ..., -0.00878477,\n",
-       "                        0.01457549, -0.02071035],\n",
-       "                      [ 0.00282983, -0.03704467,  0.02245468, ...,  0.04747025,\n",
-       "                       -0.03342215, -0.00695839]],\n",
-       "              \n",
-       "                     [[ 0.01376876, -0.03680427, -0.02725985, ...,  0.00445622,\n",
-       "                       -0.01388015, -0.05727502],\n",
-       "                      [ 0.04148179,  0.01627039, -0.03839501, ..., -0.01536803,\n",
-       "                        0.02744391, -0.00661899],\n",
-       "                      [-0.01462931, -0.00733666,  0.00704345, ..., -0.01936535,\n",
-       "                        0.00024902,  0.00248078],\n",
-       "                      ...,\n",
-       "                      [ 0.00872552, -0.01589725,  0.00721518, ...,  0.01352625,\n",
-       "                       -0.03614037, -0.00738423],\n",
-       "                      [-0.01501117, -0.00353953,  0.03562136, ..., -0.01327041,\n",
-       "                        0.01113886,  0.02501536],\n",
-       "                      [-0.00858908,  0.04791915,  0.01760549, ...,  0.0177771 ,\n",
-       "                       -0.00661571, -0.03333431]],\n",
-       "              \n",
-       "                     [[-0.01187906, -0.04443332,  0.04576288, ...,  0.00167149,\n",
-       "                       -0.00927628,  0.00616596],\n",
-       "                      [-0.01270569,  0.02138975, -0.05224277, ...,  0.00306947,\n",
-       "                        0.00871206, -0.05778804],\n",
-       "                      [ 0.01868859, -0.05713747, -0.0174821 , ..., -0.03733874,\n",
-       "                        0.02836852, -0.04284712],\n",
-       "                      ...,\n",
-       "                      [ 0.0349387 ,  0.03672682, -0.02753093, ...,  0.00166308,\n",
-       "                       -0.01772935,  0.00616858],\n",
-       "                      [-0.0030303 , -0.00437067, -0.0290189 , ...,  0.01580735,\n",
-       "                       -0.01613746, -0.03987672],\n",
-       "                      [ 0.01220608, -0.08185615,  0.02158659, ..., -0.02559558,\n",
-       "                        0.01645808, -0.03744602]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[ 0.0013312 , -0.05324713,  0.00172486, ..., -0.04377612,\n",
-       "                        0.05795961, -0.02054776],\n",
-       "                      [-0.01609062, -0.01902576,  0.00800247, ..., -0.02614984,\n",
-       "                        0.03733749,  0.00026225],\n",
-       "                      [-0.00247638, -0.01931726, -0.01522283, ...,  0.00588738,\n",
-       "                       -0.00190235, -0.00399782],\n",
-       "                      ...,\n",
-       "                      [ 0.06571385, -0.00344569, -0.00669769, ...,  0.001024  ,\n",
-       "                        0.03480022, -0.01587555],\n",
-       "                      [ 0.02889877,  0.03159959,  0.02333231, ..., -0.00581144,\n",
-       "                       -0.02998798, -0.03450729],\n",
-       "                      [-0.02668998, -0.0034108 , -0.0105373 , ..., -0.02762248,\n",
-       "                        0.00860727,  0.02687717]],\n",
-       "              \n",
-       "                     [[ 0.01648841, -0.01285174,  0.01358325, ..., -0.08152249,\n",
-       "                        0.04437737, -0.03391603],\n",
-       "                      [ 0.07113062, -0.0359729 , -0.01348723, ..., -0.0176398 ,\n",
-       "                        0.03200765,  0.06134365],\n",
-       "                      [ 0.01156471, -0.06770372,  0.02843059, ..., -0.01153438,\n",
-       "                       -0.01228396,  0.01346244],\n",
-       "                      ...,\n",
-       "                      [-0.00569895,  0.00055908,  0.06838486, ...,  0.08354934,\n",
-       "                        0.05700811,  0.00101427],\n",
-       "                      [ 0.01807693, -0.01333605, -0.00154606, ...,  0.01078754,\n",
-       "                        0.02314062,  0.01037679],\n",
-       "                      [-0.02781903, -0.05354921, -0.06595469, ..., -0.05279655,\n",
-       "                        0.01851269, -0.00904128]],\n",
-       "              \n",
-       "                     [[ 0.00583097,  0.04983573,  0.03094061, ..., -0.02316775,\n",
-       "                       -0.02365098,  0.01838909],\n",
-       "                      [-0.02851329,  0.01512148,  0.02271658, ..., -0.03578778,\n",
-       "                        0.0036391 , -0.01013733],\n",
-       "                      [-0.10941688, -0.05352794, -0.03661714, ...,  0.01911658,\n",
-       "                       -0.0331871 ,  0.01334788],\n",
-       "                      ...,\n",
-       "                      [ 0.02926285, -0.00778401, -0.00936453, ...,  0.05407878,\n",
-       "                       -0.02920299, -0.00677245],\n",
-       "                      [ 0.00341181, -0.01542326, -0.00013787, ...,  0.00919122,\n",
-       "                       -0.00327538,  0.00982734],\n",
-       "                      [ 0.04222366, -0.00887216,  0.04550539, ..., -0.03900504,\n",
-       "                        0.02140583, -0.05328723]]], dtype=float32)>\n",
-       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-0.0459144 ,  0.04068733, -0.01355186, ..., -0.01989118,\n",
-       "                       -0.03472243,  0.01304346],\n",
-       "                      [-0.03370773, -0.03767217,  0.01916665, ...,  0.02566565,\n",
-       "                        0.01706363,  0.0169379 ],\n",
-       "                      [ 0.02327448,  0.02124598, -0.00851453, ...,  0.04678395,\n",
-       "                       -0.03150146,  0.02959211],\n",
-       "                      ...,\n",
-       "                      [ 0.02368829,  0.03962338,  0.01558492, ...,  0.0044567 ,\n",
-       "                       -0.0315103 ,  0.04004923],\n",
-       "                      [ 0.01133197, -0.01993851,  0.027225  , ..., -0.02620822,\n",
-       "                        0.00454007,  0.01773539],\n",
-       "                      [-0.03604782, -0.03206643,  0.01872083, ...,  0.06024332,\n",
-       "                       -0.00716398,  0.0511735 ]],\n",
-       "              \n",
-       "                     [[ 0.00405366, -0.04948125,  0.03672703, ..., -0.00733926,\n",
-       "                       -0.01024133, -0.0456225 ],\n",
-       "                      [ 0.04979887,  0.01724279, -0.01421242, ..., -0.00306262,\n",
-       "                        0.02512117,  0.02159863],\n",
-       "                      [-0.03722695,  0.00468144,  0.0289183 , ..., -0.05651103,\n",
-       "                        0.02156329, -0.00495635],\n",
-       "                      ...,\n",
-       "                      [ 0.01668868,  0.01374733,  0.00024095, ...,  0.02230918,\n",
-       "                       -0.03669459, -0.01169418],\n",
-       "                      [-0.01635886, -0.00344317,  0.01114676, ..., -0.02080308,\n",
-       "                        0.01682055,  0.00250151],\n",
-       "                      [-0.01110393, -0.02011649,  0.01129264, ...,  0.02056844,\n",
-       "                       -0.02213018, -0.00444395]],\n",
-       "              \n",
-       "                     [[-0.00764826, -0.01075712, -0.065015  , ..., -0.00079673,\n",
-       "                       -0.04441076,  0.02999873],\n",
-       "                      [ 0.02219415, -0.04028346, -0.03506127, ...,  0.01997649,\n",
-       "                        0.00269448, -0.02619188],\n",
-       "                      [-0.04424787, -0.01318666, -0.00114819, ..., -0.04353184,\n",
-       "                        0.05100081, -0.00196214],\n",
-       "                      ...,\n",
-       "                      [-0.00140231,  0.04148398, -0.02321989, ..., -0.02140379,\n",
-       "                        0.00641817, -0.00452846],\n",
-       "                      [-0.00375441, -0.01005294,  0.00477563, ...,  0.03219246,\n",
-       "                       -0.0210044 , -0.00747442],\n",
-       "                      [ 0.01919622, -0.03384344,  0.02077735, ..., -0.01202968,\n",
-       "                        0.02690425,  0.01807844]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-0.01119938, -0.01464343,  0.00398871, ...,  0.00364551,\n",
-       "                        0.00344581, -0.00462025],\n",
-       "                      [ 0.06504844, -0.01730673,  0.02013603, ..., -0.02582743,\n",
-       "                       -0.03860147, -0.0139975 ],\n",
-       "                      [-0.04559997,  0.00583538, -0.00664801, ..., -0.0149008 ,\n",
-       "                        0.03558432, -0.01965741],\n",
-       "                      ...,\n",
-       "                      [ 0.00025523,  0.00819261, -0.0307526 , ..., -0.01076851,\n",
-       "                        0.02486686, -0.02093521],\n",
-       "                      [ 0.02401941,  0.03498043,  0.0014439 , ...,  0.01171041,\n",
-       "                       -0.00058519, -0.02835972],\n",
-       "                      [ 0.00732349, -0.00456121, -0.03796291, ..., -0.03865096,\n",
-       "                       -0.01785722, -0.04314538]],\n",
-       "              \n",
-       "                     [[ 0.00726655,  0.03450558,  0.02211844, ..., -0.03010445,\n",
-       "                       -0.02838681, -0.0039719 ],\n",
-       "                      [-0.01016848,  0.01256592,  0.07358556, ..., -0.0117584 ,\n",
-       "                        0.04732952, -0.02382375],\n",
-       "                      [-0.02834523,  0.01466386,  0.03074974, ..., -0.00940978,\n",
-       "                       -0.00022519, -0.07195798],\n",
-       "                      ...,\n",
-       "                      [ 0.01355847,  0.01601157,  0.02397542, ...,  0.03484057,\n",
-       "                        0.04077799, -0.03013852],\n",
-       "                      [ 0.00740167,  0.02471284, -0.0393412 , ...,  0.02263542,\n",
-       "                        0.01461129,  0.01385937],\n",
-       "                      [ 0.02695005, -0.00959161, -0.01261136, ..., -0.00971951,\n",
-       "                        0.03261755,  0.00980215]],\n",
-       "              \n",
-       "                     [[ 0.02489883, -0.02117315, -0.01708841, ...,  0.02682983,\n",
-       "                        0.02765293, -0.03892074],\n",
-       "                      [ 0.00359684,  0.02647137, -0.0155964 , ..., -0.02545275,\n",
-       "                       -0.01858809, -0.01930472],\n",
-       "                      [-0.01306243,  0.00480867,  0.00555033, ...,  0.00739669,\n",
-       "                       -0.02284159, -0.00387958],\n",
-       "                      ...,\n",
-       "                      [ 0.01714972, -0.00192116,  0.00112109, ..., -0.01120449,\n",
-       "                       -0.02290132, -0.00165214],\n",
-       "                      [-0.02095219, -0.00792485,  0.00188622, ...,  0.01830022,\n",
-       "                        0.00613669, -0.02693458],\n",
-       "                      [-0.05250171, -0.0118492 , -0.01927755, ..., -0.01943363,\n",
-       "                        0.01223021, -0.01266978]]], dtype=float32)>\n",
-       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.74154818e-01,  1.71483576e-01, -1.57918856e-01, ...,\n",
-       "                       -1.09398648e-01, -1.66214570e-01,  1.69107735e-01],\n",
-       "                      [-1.34248465e-01, -1.37429506e-01,  1.49386033e-01, ...,\n",
-       "                        1.27640173e-01,  1.43373027e-01, -1.56313241e-01],\n",
-       "                      [-1.09571531e-01, -1.28932819e-01, -1.36733443e-01, ...,\n",
-       "                       -1.53899968e-01, -1.61415860e-01, -1.55967340e-01],\n",
-       "                      ...,\n",
-       "                      [-2.67540216e-02,  9.91882980e-02, -5.10194190e-02, ...,\n",
-       "                       -3.43626109e-03,  3.33151408e-02, -3.82135659e-02],\n",
-       "                      [ 6.43306673e-02,  4.39539142e-02, -2.82719377e-02, ...,\n",
-       "                        5.20758294e-02,  4.51205000e-02, -1.25731584e-02],\n",
-       "                      [-1.54505864e-01, -1.45732820e-01, -1.48832098e-01, ...,\n",
-       "                       -1.36694744e-01,  1.42165855e-01, -1.38038144e-01]],\n",
-       "              \n",
-       "                     [[-1.34223402e-01,  1.29062846e-01, -1.10095568e-01, ...,\n",
-       "                       -4.56332713e-02, -1.35236993e-01,  1.25871733e-01],\n",
-       "                      [-1.04855791e-01, -9.51494128e-02,  1.04910910e-01, ...,\n",
-       "                        1.04753070e-01,  1.28032610e-01, -1.11456059e-01],\n",
-       "                      [-9.41539183e-02, -1.49656698e-01, -1.33008048e-01, ...,\n",
-       "                       -1.56195447e-01, -1.33284256e-01, -1.50071308e-01],\n",
-       "                      ...,\n",
-       "                      [-1.65088084e-02,  7.33572915e-02, -3.98807749e-02, ...,\n",
-       "                        2.30416749e-02,  1.75641049e-02, -4.62100022e-02],\n",
-       "                      [ 3.67465951e-02,  4.43068817e-02, -1.63640715e-02, ...,\n",
-       "                        4.77316864e-02,  4.48581763e-02,  1.15232123e-03],\n",
-       "                      [-1.06183678e-01, -9.87367705e-02, -1.01419248e-01, ...,\n",
-       "                       -8.46716315e-02,  8.80824402e-02, -1.13163486e-01]],\n",
-       "              \n",
-       "                     [[-9.73633751e-02,  8.78513753e-02, -1.10944688e-01, ...,\n",
-       "                       -5.38534336e-02, -9.78744626e-02,  1.34479314e-01],\n",
-       "                      [-8.19151998e-02, -9.94543955e-02,  5.58716655e-02, ...,\n",
-       "                        9.10466388e-02,  8.79919752e-02, -7.91056827e-02],\n",
-       "                      [-1.07165791e-01, -1.16330668e-01, -1.04530655e-01, ...,\n",
-       "                       -1.26266211e-01, -1.14166744e-01, -1.32683665e-01],\n",
-       "                      ...,\n",
-       "                      [-6.09156210e-03,  5.80127090e-02, -3.35601829e-02, ...,\n",
-       "                       -1.27315565e-04,  1.89231914e-02, -1.03578214e-02],\n",
-       "                      [ 3.55091467e-02,  3.06853075e-02, -3.44112329e-02, ...,\n",
-       "                        4.85388599e-02,  9.87971947e-03, -2.19964515e-02],\n",
-       "                      [-6.60627335e-02, -6.56424835e-02, -8.05212483e-02, ...,\n",
-       "                       -7.00480193e-02,  7.31544569e-02, -6.39438108e-02]],\n",
-       "              \n",
-       "                     ...,\n",
-       "              \n",
-       "                     [[-1.48311350e-02, -1.23089608e-02,  3.57820955e-03, ...,\n",
-       "                       -2.04090904e-02,  1.94556732e-03, -1.02494638e-02],\n",
-       "                      [ 4.35499102e-03, -6.63030194e-04,  1.95456371e-02, ...,\n",
-       "                       -6.83242688e-03, -1.00761633e-02, -1.73593359e-03],\n",
-       "                      [-1.80752464e-02, -1.66376941e-02, -1.10558709e-02, ...,\n",
-       "                       -2.73382664e-02,  1.69053709e-03, -1.61816720e-02],\n",
-       "                      ...,\n",
-       "                      [ 1.91931371e-02, -7.00070197e-03,  2.42002066e-02, ...,\n",
-       "                        3.97639628e-03, -8.44740868e-03,  1.29894456e-02],\n",
-       "                      [-8.07208288e-03, -4.40871762e-03,  4.02785353e-02, ...,\n",
-       "                       -2.72978912e-03, -2.89322101e-02,  1.82679240e-02],\n",
-       "                      [-2.15032008e-02, -2.35424191e-02, -3.08847502e-02, ...,\n",
-       "                       -2.68492289e-02,  9.08977166e-03, -2.62664557e-02]],\n",
-       "              \n",
-       "                     [[ 4.63743974e-03,  8.47169757e-03, -1.44635988e-02, ...,\n",
-       "                       -1.65978130e-02,  1.24762636e-02,  2.84114317e-03],\n",
-       "                      [ 2.10315473e-02,  3.91109427e-03,  1.73604600e-02, ...,\n",
-       "                       -2.32025096e-03,  5.87290479e-03,  9.85332299e-05],\n",
-       "                      [-2.55174581e-02, -5.42022474e-03,  4.37739212e-03, ...,\n",
-       "                       -2.30460241e-03,  3.03133507e-03, -1.33659486e-02],\n",
-       "                      ...,\n",
-       "                      [-1.23453815e-03, -1.62221733e-02,  1.88910943e-02, ...,\n",
-       "                       -2.35769432e-02,  1.02529228e-02,  9.97068919e-03],\n",
-       "                      [ 1.09659694e-02,  4.10200097e-03, -3.22548039e-02, ...,\n",
-       "                        9.11346730e-03,  1.90772861e-02, -2.13330518e-02],\n",
-       "                      [ 8.70900694e-03,  3.51738883e-03, -1.52583178e-02, ...,\n",
-       "                       -3.99373658e-03, -7.65542360e-03,  1.30024115e-02]],\n",
-       "              \n",
-       "                     [[-1.07049560e-02,  2.16062423e-02, -2.15930026e-02, ...,\n",
-       "                        1.26719456e-02,  7.11302564e-05,  8.03572778e-03],\n",
-       "                      [ 1.24141166e-04,  7.36288028e-03, -6.79872115e-04, ...,\n",
-       "                        2.49428093e-03, -1.16298664e-02,  2.27960074e-04],\n",
-       "                      [-9.86421760e-03, -2.49710362e-02, -2.40540970e-02, ...,\n",
-       "                       -4.42250725e-03, -2.89662927e-02, -1.20275375e-02],\n",
-       "                      ...,\n",
-       "                      [ 3.12622730e-03, -6.99984375e-03, -2.77643427e-02, ...,\n",
-       "                       -1.10041993e-02, -2.18351595e-02,  2.90531025e-05],\n",
-       "                      [-3.10673728e-03, -1.49604697e-02,  1.97154842e-02, ...,\n",
-       "                        2.03390904e-02, -1.56578294e-03, -5.11408225e-03],\n",
-       "                      [ 2.66231168e-02,  1.82542447e-02,  2.63125654e-02, ...,\n",
-       "                        1.70649234e-02, -2.89466791e-02,  2.94499528e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[ 0.2688689 , -0.26965415,  0.24901254, -0.21432097, -0.2537209 ,\n",
-       "                      -0.25497636, -0.25866804, -0.26985508,  0.279801  ,  0.13522011,\n",
-       "                       0.25756484, -0.24836208],\n",
-       "                     [ 0.22552061,  0.24260372, -0.19067137,  0.22706836,  0.24444126,\n",
-       "                      -0.22470543, -0.20988142,  0.21856506, -0.21155524, -0.23370892,\n",
-       "                      -0.24733196,  0.22796093],\n",
-       "                     [ 0.17451425,  0.24542138,  0.25050005,  0.22542311,  0.23060308,\n",
-       "                       0.23414634, -0.24786818, -0.22182368, -0.26085967,  0.2449251 ,\n",
-       "                       0.23860171,  0.2544802 ],\n",
-       "                     [-0.26321352,  0.25723347, -0.26902857,  0.26281124, -0.2697539 ,\n",
-       "                      -0.25095993,  0.2511667 , -0.26299623,  0.25617778, -0.26167557,\n",
-       "                       0.23467393, -0.2685565 ],\n",
-       "                     [ 0.17467302, -0.16205215, -0.1877693 ,  0.19500752,  0.2010059 ,\n",
-       "                       0.19327593, -0.15914948, -0.15686454,  0.17404646, -0.18154949,\n",
-       "                      -0.19225396, -0.22171909],\n",
-       "                     [ 0.2911585 ,  0.2944224 ,  0.30023518, -0.28492442,  0.29406187,\n",
-       "                       0.27411905,  0.28787902,  0.2629663 , -0.2700486 ,  0.28186122,\n",
-       "                       0.26866576, -0.2760028 ],\n",
-       "                     [ 0.23711525,  0.24224289,  0.2396094 ,  0.23603547,  0.22876322,\n",
-       "                      -0.1514269 , -0.21984197, -0.25572085,  0.22679004, -0.22610106,\n",
-       "                      -0.18015033,  0.23062935],\n",
-       "                     [ 0.14032885,  0.17071794, -0.17316875, -0.16643512,  0.1764703 ,\n",
-       "                      -0.16535877,  0.16976672, -0.17395648, -0.18172397, -0.16909888,\n",
-       "                      -0.15671346,  0.17406578],\n",
-       "                     [ 0.27129218,  0.0269384 ,  0.30974644, -0.32017758,  0.30744395,\n",
-       "                       0.3084069 ,  0.29277486, -0.2918221 ,  0.30702245, -0.3208851 ,\n",
-       "                      -0.31668597,  0.30160227],\n",
-       "                     [ 0.20867229,  0.26565212,  0.240152  ,  0.25398126,  0.25057864,\n",
-       "                      -0.2671012 , -0.22444747, -0.25539088, -0.20067541,  0.24432313,\n",
-       "                       0.25486085,  0.24394904],\n",
-       "                     [-0.11263231, -0.10217136,  0.11905885,  0.11843061, -0.04683039,\n",
-       "                      -0.1214601 , -0.13461663, -0.11759   , -0.09937124, -0.11690577,\n",
-       "                      -0.11399411, -0.11268682],\n",
-       "                     [-0.3255043 ,  0.3025848 , -0.32363445,  0.31425825,  0.33041543,\n",
-       "                      -0.32620475,  0.33724216, -0.34903747,  0.33359587, -0.32901266,\n",
-       "                      -0.20129874, -0.27945545],\n",
-       "                     [-0.28321803,  0.30109507,  0.28544128, -0.2959158 , -0.2607007 ,\n",
-       "                      -0.3055412 , -0.2917673 ,  0.05050412,  0.29260388,  0.3141212 ,\n",
-       "                       0.2934034 ,  0.27473462],\n",
-       "                     [ 0.13607652, -0.15221834,  0.12748647,  0.13965258, -0.13058284,\n",
-       "                       0.11827224, -0.14616172, -0.1512048 , -0.14531319,  0.12655123,\n",
-       "                      -0.13622668,  0.14556718],\n",
-       "                     [-0.11822458, -0.13290364,  0.12828259, -0.10410035,  0.11239365,\n",
-       "                      -0.1154983 ,  0.11172337, -0.07072505, -0.13299397, -0.14156868,\n",
-       "                      -0.13565728,  0.12855493],\n",
-       "                     [ 0.21563186,  0.2163769 ,  0.20157547, -0.1918813 ,  0.2039993 ,\n",
-       "                      -0.17185296,  0.20537192, -0.22688936,  0.17318453,  0.20538278,\n",
-       "                      -0.20797041,  0.21802594]], dtype=float32)>\n",
-       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
-       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
-       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
-       "              array([[-0.05696932,  0.06740195, -0.04667107,  0.03021106,  0.06784655,\n",
-       "                       0.05382765,  0.11438312,  0.06822202, -0.05993791,  0.0104263 ,\n",
-       "                      -0.05300143,  0.05010788],\n",
-       "                     [-0.01765995, -0.00319457, -0.00498415, -0.02782676, -0.0098952 ,\n",
-       "                       0.0253829 ,  0.00407754, -0.00715973, -0.01590695,  0.03437943,\n",
-       "                      -0.00520796,  0.01617681],\n",
-       "                     [ 0.03272007, -0.02977583, -0.0506134 , -0.02890366, -0.02049887,\n",
-       "                      -0.01999169,  0.02516508,  0.0137186 ,  0.05666393,  0.01375697,\n",
-       "                      -0.00890318, -0.02950851],\n",
-       "                     [ 0.04980705, -0.10362899,  0.11056181, -0.00730947,  0.0607907 ,\n",
-       "                       0.11900052, -0.05051542,  0.00662729, -0.07860364,  0.10183192,\n",
-       "                      -0.06212043,  0.10200542],\n",
-       "                     [-0.01238653,  0.01794332,  0.01029513,  0.01060856,  0.06930448,\n",
-       "                       0.02380366,  0.03477835, -0.00071606, -0.01467696,  0.02097475,\n",
-       "                      -0.05677698, -0.02087275],\n",
-       "                     [-0.00938045, -0.10405949, -0.16658893,  0.11485966, -0.09381208,\n",
-       "                      -0.09224471, -0.08554322, -0.10385393,  0.05632018, -0.08339553,\n",
-       "                      -0.07872038,  0.08625405],\n",
-       "                     [-0.00826191,  0.00976967, -0.05739374, -0.0021869 , -0.01485464,\n",
-       "                       0.04506572,  0.01217067, -0.02800449, -0.05174134,  0.00862589,\n",
-       "                      -0.048445  , -0.01480543],\n",
-       "                     [-0.03782475,  0.02112421, -0.02993089,  0.02389399,  0.01590282,\n",
-       "                      -0.07890326,  0.02925709, -0.01764274, -0.01462149, -0.02284196,\n",
-       "                      -0.00965995,  0.03196143],\n",
-       "                     [-0.0716677 ,  0.02040408, -0.10738931,  0.01476234, -0.13842428,\n",
-       "                      -0.16400102, -0.10327879,  0.12093128, -0.10067357,  0.06000268,\n",
-       "                       0.1498203 , -0.13828841],\n",
-       "                     [-0.0734336 , -0.03922071,  0.04693641,  0.04044463, -0.02889867,\n",
-       "                       0.02146053,  0.02633213,  0.03645428,  0.01565466, -0.03198807,\n",
-       "                      -0.04235039, -0.03586181],\n",
-       "                     [-0.0363492 , -0.01702744,  0.01083277,  0.03850618, -0.03934945,\n",
-       "                       0.0334761 , -0.01588807, -0.02619908, -0.03216818, -0.01060551,\n",
-       "                      -0.02627585, -0.02604468],\n",
-       "                     [ 0.17790402, -0.12851508,  0.15003633, -0.08518519, -0.14476636,\n",
-       "                       0.15762399, -0.1230861 ,  0.11259855, -0.1162812 ,  0.04080873,\n",
-       "                      -0.05779656,  0.01974249],\n",
-       "                     [ 0.1006938 , -0.01474479, -0.12138946,  0.09284463, -0.03289664,\n",
-       "                       0.10987794,  0.07332658,  0.07245267, -0.06578953, -0.04563607,\n",
-       "                      -0.05779454, -0.10485042],\n",
-       "                     [ 0.02835969, -0.02732395, -0.03461828,  0.03488555, -0.0194285 ,\n",
-       "                      -0.02805083, -0.03940667, -0.04644369, -0.04771877,  0.0372751 ,\n",
-       "                      -0.04531232,  0.04370135],\n",
-       "                     [-0.03590996, -0.0298533 ,  0.03344881, -0.02929044,  0.0327831 ,\n",
-       "                      -0.03273273,  0.03038734, -0.01118592, -0.02868269, -0.02645629,\n",
-       "                      -0.03735423,  0.03250728],\n",
-       "                     [ 0.02255821, -0.00829006,  0.02793193, -0.03778297, -0.00788219,\n",
-       "                      -0.04285704,  0.02978727,  0.05981049, -0.03792181,  0.03670314,\n",
-       "                      -0.02965603,  0.01923521]], dtype=float32)>\n",
-       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
-       "              array([[[-1.76201500e-02,  7.23677780e-03,  2.01333477e-03,\n",
-       "                       -2.08359188e-03, -1.94589060e-03, -4.36071586e-03,\n",
-       "                       -2.57775449e-04,  7.59294024e-03, -1.73478248e-03,\n",
-       "                       -8.46251752e-03, -1.39660882e-02, -3.43717635e-03],\n",
-       "                      [-4.64910455e-03, -1.21313529e-02,  4.58984112e-04,\n",
-       "                       -1.35235321e-02, -1.04260454e-02, -1.50275379e-02,\n",
-       "                        1.48641376e-03,  1.55189037e-02,  5.91089716e-03,\n",
-       "                       -1.43639045e-03, -4.50501451e-03, -1.60674599e-03],\n",
-       "                      [ 1.60457045e-02,  1.19220214e-02, -1.28411585e-02,\n",
-       "                        9.09075513e-03, -1.58246304e-03,  1.31560909e-03,\n",
-       "                        1.35482438e-02,  5.81168523e-03, -1.05840880e-02,\n",
-       "                       -2.59173219e-03, -1.32385837e-02, -1.04863010e-02],\n",
-       "                      [-1.21809123e-02, -9.36632976e-03,  1.40900621e-02,\n",
-       "                        5.91376238e-03,  3.72369075e-03, -2.30165408e-03,\n",
-       "                        6.51500374e-03, -1.45569751e-02,  1.43247042e-02,\n",
-       "                        8.62884428e-03,  8.86701699e-03,  7.06208264e-03],\n",
-       "                      [ 1.02975138e-03, -1.51113952e-02,  1.51367933e-02,\n",
-       "                        9.86063853e-03, -2.37684697e-03,  1.99867710e-02,\n",
-       "                        8.06052238e-03, -7.84497056e-03,  3.50654381e-03,\n",
-       "                        3.82472947e-03, -3.21561890e-03,  7.42827263e-03],\n",
-       "                      [-1.18214521e-03, -1.43715926e-02, -8.06425512e-03,\n",
-       "                       -4.83092666e-03, -6.24039629e-03, -8.07906594e-03,\n",
-       "                       -8.29043146e-03, -1.61064218e-03,  4.77965921e-03,\n",
-       "                       -1.74443778e-02,  1.33291204e-02,  2.52250186e-03],\n",
-       "                      [-2.72214878e-04, -5.96261350e-03, -4.04428970e-03,\n",
-       "                       -6.11912599e-03, -6.60097087e-03,  1.76098440e-02,\n",
-       "                        2.69631855e-03,  1.54615650e-02, -2.30501313e-03,\n",
-       "                        1.05330944e-02,  6.35499740e-03,  9.17971018e-04],\n",
-       "                      [ 1.18885133e-02, -1.31673440e-02, -1.38173029e-02,\n",
-       "                       -3.70214053e-04,  5.35412400e-04, -1.37663968e-02,\n",
-       "                        1.87561940e-02, -2.42887018e-03,  1.48599371e-02,\n",
-       "                        3.21199768e-03, -1.09921275e-02, -5.65451774e-05],\n",
-       "                      [-3.74776288e-03,  1.38268322e-02,  9.05366149e-04,\n",
-       "                        1.20775551e-02,  1.10800657e-02, -8.72297771e-03,\n",
-       "                        4.18304279e-03,  4.37156297e-03, -1.07811140e-02,\n",
-       "                        1.92405155e-03,  3.25367018e-03,  8.75506643e-03],\n",
-       "                      [-1.75420940e-02,  6.48414111e-03, -9.18684620e-03,\n",
-       "                        1.14019576e-03, -1.57787383e-03,  5.56192547e-03,\n",
-       "                       -2.17733742e-03,  1.37266740e-02,  1.05201543e-04,\n",
-       "                        6.03883620e-03, -6.69960165e-03,  7.33956508e-03],\n",
-       "                      [-3.18406359e-03, -3.90002085e-03,  1.50526362e-02,\n",
-       "                       -1.12941780e-03,  7.90258031e-03,  5.57251694e-03,\n",
-       "                       -7.09417462e-03,  1.54607017e-02,  7.53346644e-03,\n",
-       "                        3.84633575e-04, -3.10583878e-03, -1.67749040e-02],\n",
-       "                      [ 1.35503442e-03,  1.14696333e-02,  1.69651874e-03,\n",
-       "                       -7.29335006e-03, -5.32992696e-03,  1.07378103e-02,\n",
-       "                        4.87127202e-03, -2.83743930e-03,  1.49954585e-02,\n",
-       "                       -4.96328762e-03,  3.51505092e-04, -1.27301645e-02],\n",
-       "                      [-1.52372206e-02,  1.93297828e-03,  1.31188966e-02,\n",
-       "                        1.51950726e-02, -5.42309275e-03,  5.40221622e-03,\n",
-       "                       -4.99887299e-03,  1.21317999e-02, -7.83546944e-04,\n",
-       "                       -1.46692842e-02,  3.18376743e-03,  6.29057584e-04],\n",
-       "                      [ 1.57519914e-02,  1.33262370e-02,  1.81965269e-02,\n",
-       "                       -7.42383441e-03, -1.89367812e-02, -6.97921682e-03,\n",
-       "                        1.48802875e-02,  1.46334016e-04,  7.02118780e-03,\n",
-       "                       -5.09436592e-04, -1.18623655e-02,  8.64821393e-03],\n",
-       "                      [ 7.67512945e-03, -8.17312021e-03,  2.41133641e-03,\n",
-       "                        6.33313879e-03,  7.54179759e-03, -3.57080396e-04,\n",
-       "                       -1.65680032e-02, -1.17100859e-02, -3.40799033e-03,\n",
-       "                       -1.27221271e-02,  8.30271374e-03,  7.56895775e-03],\n",
-       "                      [-9.88331065e-03, -1.54634397e-02,  3.01517267e-03,\n",
-       "                        1.49145685e-02,  3.77843564e-04,  5.24123758e-03,\n",
-       "                        7.02060014e-03, -1.07852966e-02,  1.04165310e-02,\n",
-       "                       -1.54804869e-03,  1.93265197e-03,  1.79295102e-03]],\n",
-       "              \n",
-       "                     [[-9.20055062e-03, -4.07590671e-03,  1.03095314e-02,\n",
-       "                        1.51754147e-03, -6.64392672e-03,  3.19885346e-03,\n",
-       "                       -4.18524677e-03, -1.13258476e-03, -1.70869473e-02,\n",
-       "                        1.26075298e-02, -1.30983908e-02, -7.83024263e-03],\n",
-       "                      [ 8.46219435e-03,  1.79808959e-02, -5.26713906e-03,\n",
-       "                       -1.21411623e-03,  1.86999720e-02, -3.02859768e-03,\n",
-       "                       -7.32064573e-03,  6.67995447e-03, -1.27523849e-02,\n",
-       "                       -9.06828791e-04,  9.74638015e-03, -1.72092929e-03],\n",
-       "                      [-2.01144046e-03, -5.63319679e-03, -5.22003649e-03,\n",
-       "                       -6.08433876e-03, -4.08862112e-03,  1.46857975e-02,\n",
-       "                        5.76145761e-03, -5.26309886e-04,  1.52066564e-02,\n",
-       "                       -9.31825582e-03,  1.23050511e-02, -4.26228344e-03],\n",
-       "                      [ 5.15877875e-03,  1.52563385e-03,  3.33353621e-03,\n",
-       "                        1.24664837e-02,  2.89318291e-03,  1.85139419e-03,\n",
-       "                        1.32558951e-02, -6.19108090e-03, -9.30891279e-03,\n",
-       "                       -1.32808858e-03,  7.90562108e-03, -1.03561748e-02],\n",
-       "                      [ 5.24061127e-03,  1.13433264e-02,  9.25735664e-03,\n",
-       "                       -4.02201712e-03,  2.17584849e-04,  5.15505997e-03,\n",
-       "                        1.17364945e-02, -2.31140363e-03, -5.13278367e-03,\n",
-       "                        1.39841707e-02,  6.70559751e-03, -6.61857938e-03],\n",
-       "                      [-8.77800304e-03,  2.86807003e-03, -2.38788500e-03,\n",
-       "                       -4.60851612e-03, -1.44038992e-02, -1.35576446e-02,\n",
-       "                        2.62864912e-03,  1.24858366e-02, -4.75487951e-03,\n",
-       "                       -1.43712144e-02,  7.60273263e-03,  3.79640306e-03],\n",
-       "                      [-7.03944918e-03,  1.97168030e-02, -7.26960087e-03,\n",
-       "                       -1.95749779e-03,  1.92702599e-02,  4.81317611e-03,\n",
-       "                        3.79350944e-03, -4.26485110e-03, -8.09873175e-03,\n",
-       "                        9.86441132e-03,  1.22883695e-03,  1.08946105e-02],\n",
-       "                      [-5.65246725e-03,  1.21349460e-02,  8.74449220e-03,\n",
-       "                        2.44105165e-03,  9.21645202e-04, -1.55313788e-02,\n",
-       "                       -5.02558984e-03, -8.27753078e-03,  1.90036907e-03,\n",
-       "                       -5.53005328e-03, -4.72517498e-03,  2.99230800e-03],\n",
-       "                      [ 9.09654330e-03,  3.31225386e-03, -9.27547738e-03,\n",
-       "                        1.19113754e-02, -1.02159902e-02,  6.25002244e-03,\n",
-       "                        1.22169312e-02, -9.51310806e-03,  1.30269127e-02,\n",
-       "                       -9.39868111e-03, -5.70971100e-03, -4.75845346e-03],\n",
-       "                      [-7.14318268e-03, -1.64083187e-02, -2.20953533e-03,\n",
-       "                        6.77416055e-03,  7.19653070e-03, -7.37716153e-04,\n",
-       "                       -9.68988799e-03, -8.25300999e-03, -4.56864573e-03,\n",
-       "                       -2.91621801e-03, -5.80342347e-03, -3.35400272e-03],\n",
-       "                      [-1.02773616e-02, -5.61380177e-04,  1.61001328e-02,\n",
-       "                        2.81318300e-03, -4.40954976e-03,  1.18312403e-03,\n",
-       "                        6.44329004e-03, -6.98125642e-03, -1.70135554e-02,\n",
-       "                       -3.60937743e-03, -7.53390486e-04, -2.80036475e-03],\n",
-       "                      [ 3.10404622e-03,  1.14401504e-02, -5.79726277e-03,\n",
-       "                        1.60975326e-02,  6.44704467e-03, -1.83150265e-02,\n",
-       "                        1.08390385e-02,  1.02912402e-02, -8.38461891e-03,\n",
-       "                        5.39217493e-04, -9.44596343e-03, -7.39992782e-03],\n",
-       "                      [-2.65034917e-03, -8.84522311e-03, -9.31692962e-03,\n",
-       "                        5.32580819e-03, -1.69087376e-03,  2.63938890e-03,\n",
-       "                        8.64508655e-03,  1.84377395e-02,  1.37084173e-02,\n",
-       "                       -1.89692043e-02,  1.31469080e-02,  1.86770391e-02],\n",
-       "                      [ 2.77522532e-03,  7.73473585e-04, -3.17918998e-03,\n",
-       "                        6.54795533e-03,  2.26482097e-03,  2.92668981e-03,\n",
-       "                        9.05719213e-03, -8.49937089e-03, -7.30413711e-04,\n",
-       "                        5.80394780e-03, -1.54569661e-02, -6.13560947e-03],\n",
-       "                      [-5.60323242e-03,  3.84009560e-03,  1.06589124e-02,\n",
-       "                       -8.98534432e-03,  1.82283614e-02, -5.89990197e-03,\n",
-       "                       -8.10589176e-03,  2.83340388e-03,  1.38193602e-02,\n",
-       "                       -9.81133338e-03,  1.99420359e-02,  9.88560077e-03],\n",
-       "                      [-9.26352944e-03, -9.68698412e-03, -2.24529719e-03,\n",
-       "                        5.43415966e-03,  1.32604288e-02, -3.96666024e-03,\n",
-       "                       -1.34215793e-02,  1.25270914e-02, -1.48909222e-02,\n",
-       "                        2.03456427e-03, -6.15184056e-03, -1.86165944e-02]]],\n",
-       "                    dtype=float32)>\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (ff): TFXLNetFeedForward(\n",
-       "              (layer_norm): LayerNormalization(\n",
-       "                (axis): List(\n",
-       "                  (0): 2\n",
-       "                )\n",
-       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([1.2426662 , 1.0785499 , 1.1864272 , 1.1377372 , 1.1753842 ,\n",
-       "                       1.021473  , 0.9678357 , 1.075388  , 1.3095288 , 1.1425663 ,\n",
-       "                       1.1866144 , 1.2455702 , 1.2347478 , 1.1598873 , 1.1709665 ,\n",
-       "                       1.2157438 , 1.2720231 , 1.1773459 , 1.1897057 , 1.2453034 ,\n",
-       "                       1.2315087 , 0.8506601 , 1.070401  , 1.1797608 , 1.2647007 ,\n",
-       "                       1.2300415 , 1.3117491 , 1.0503579 , 1.1387292 , 1.1583905 ,\n",
-       "                       1.3045065 , 0.8964496 , 1.1164156 , 1.2434596 , 1.2388874 ,\n",
-       "                       1.2253768 , 1.1266948 , 1.0823714 , 1.1271874 , 1.1423486 ,\n",
-       "                       1.2114882 , 1.1171185 , 1.1692193 , 1.2141284 , 1.1173588 ,\n",
-       "                       1.2316343 , 1.1557999 , 1.1985208 , 1.1526998 , 1.1652381 ,\n",
-       "                       1.1020889 , 1.2839859 , 1.255206  , 1.2338889 , 1.1334827 ,\n",
-       "                       1.2606637 , 1.1768172 , 1.133126  , 1.1616554 , 1.2591982 ,\n",
-       "                       1.2608087 , 1.2771136 , 1.2220011 , 1.2126131 , 1.3102369 ,\n",
-       "                       1.161485  , 1.2388053 , 1.0854522 , 1.109191  , 1.2433244 ,\n",
-       "                       1.1612333 , 1.119974  , 1.1657274 , 1.2391368 , 1.2408532 ,\n",
-       "                       1.2713405 , 1.2003607 , 1.0934154 , 1.2725589 , 1.2331755 ,\n",
-       "                       1.1576575 , 1.2792869 , 1.0979929 , 1.2165016 , 1.2552319 ,\n",
-       "                       1.2154813 , 1.2387912 , 1.2113545 , 1.092492  , 1.287265  ,\n",
-       "                       1.2405735 , 1.086961  , 1.2186264 , 1.3057741 , 1.2447143 ,\n",
-       "                       1.145893  , 1.0720298 , 1.1931537 , 1.2258768 , 1.2223678 ,\n",
-       "                       1.1108402 , 1.2334076 , 1.2989581 , 1.0500095 , 1.2545264 ,\n",
-       "                       1.254883  , 1.06171   , 1.1827933 , 1.2883551 , 1.2290361 ,\n",
-       "                       1.1559633 , 1.0829264 , 1.2454283 , 1.2021191 , 1.1572067 ,\n",
-       "                       1.1571015 , 1.2683761 , 1.0523615 , 1.1081159 , 1.1978542 ,\n",
-       "                       1.2392715 , 1.1955217 , 1.154171  , 1.1076897 , 1.2144334 ,\n",
-       "                       1.0649818 , 1.2400447 , 1.1655055 , 1.1342129 , 1.2052649 ,\n",
-       "                       1.3010224 , 1.1970998 , 1.0977236 , 1.2325233 , 1.1176093 ,\n",
-       "                       1.1990188 , 1.1427927 , 1.1808167 , 1.1174316 , 1.1828363 ,\n",
-       "                       1.1767571 , 1.2167183 , 1.1697968 , 1.1744046 , 0.8939868 ,\n",
-       "                       1.2574182 , 1.2255412 , 1.2447684 , 1.1385155 , 1.1537726 ,\n",
-       "                       1.2788998 , 1.1112866 , 1.2417119 , 1.2249215 , 1.2867014 ,\n",
-       "                       1.1683307 , 1.2784356 , 1.1631655 , 1.1246334 , 1.2807626 ,\n",
-       "                       1.2504355 , 1.09938   , 1.2896625 , 1.2980561 , 1.1257046 ,\n",
-       "                       1.246858  , 1.0817022 , 1.0696605 , 1.2495583 , 1.2915183 ,\n",
-       "                       1.1820105 , 0.96095157, 1.1545107 , 1.1149871 , 1.1985911 ,\n",
-       "                       1.2794744 , 1.1154523 , 1.1982616 , 1.1381829 , 1.22324   ,\n",
-       "                       1.1455675 , 1.1988021 , 1.3195752 , 1.2144073 , 1.2616345 ,\n",
-       "                       1.1431206 , 1.2790085 , 1.0831236 , 1.125044  , 1.2778053 ,\n",
-       "                       1.1591135 , 1.1882532 ], dtype=float32)>\n",
-       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([-0.01049791,  0.02152375, -0.03378561,  0.03164947,  0.00819711,\n",
-       "                       -0.01405335, -0.02091987,  0.00788867, -0.01027707, -0.00172993,\n",
-       "                       -0.01103046,  0.00836649,  0.00941498,  0.0382531 , -0.00642702,\n",
-       "                        0.01852331,  0.00470948,  0.02344545,  0.01141193,  0.00127532,\n",
-       "                        0.01603293, -0.04580598, -0.01747353,  0.02438874, -0.04060405,\n",
-       "                        0.00479471, -0.00592997, -0.00421144, -0.01156144, -0.00946089,\n",
-       "                       -0.00481299,  0.04446075, -0.04495647, -0.01447472,  0.02050785,\n",
-       "                       -0.00235888, -0.0057586 ,  0.01404028, -0.0084481 , -0.00079954,\n",
-       "                        0.00200081,  0.01832308, -0.01832635,  0.01489427,  0.00268834,\n",
-       "                       -0.02017709,  0.04548539,  0.05178156,  0.02737129, -0.00052763,\n",
-       "                        0.00891565,  0.01618693,  0.02362686, -0.01064536,  0.01651912,\n",
-       "                        0.03200817, -0.01955355, -0.00421685, -0.05510062, -0.00611641,\n",
-       "                       -0.01592397, -0.02227358, -0.02164057, -0.01181097,  0.00364242,\n",
-       "                       -0.01818874,  0.02677143,  0.00873136,  0.00520407,  0.00165503,\n",
-       "                       -0.0106048 , -0.0474345 , -0.01927847, -0.00275519, -0.05010425,\n",
-       "                        0.00443012, -0.02050812, -0.01938166,  0.02276452, -0.0491508 ,\n",
-       "                       -0.02156696,  0.00576269,  0.01251344, -0.00798486,  0.01934762,\n",
-       "                       -0.00466829,  0.02987502,  0.0449635 ,  0.02794607, -0.01035585,\n",
-       "                       -0.03455339, -0.02017214, -0.01751639,  0.00814069, -0.00960286,\n",
-       "                        0.02078385, -0.00918255,  0.04219389,  0.01527736, -0.00782714,\n",
-       "                       -0.01744033,  0.02201356, -0.01601992,  0.038303  ,  0.03574631,\n",
-       "                        0.04583006,  0.00173102,  0.02031284,  0.0127416 , -0.04929825,\n",
-       "                       -0.00745583, -0.00845573, -0.00315962,  0.0541168 ,  0.03200234,\n",
-       "                        0.00109879, -0.00174849,  0.01873765,  0.00980952,  0.03789899,\n",
-       "                       -0.00356435, -0.02858787, -0.01368637,  0.0037826 , -0.00455629,\n",
-       "                       -0.02301045, -0.03979176,  0.02152948, -0.0191615 ,  0.05090038,\n",
-       "                        0.01223159, -0.01177116, -0.01836306, -0.01753503,  0.00840725,\n",
-       "                        0.01081169, -0.03334855,  0.02582728, -0.00310735,  0.01060186,\n",
-       "                        0.02900856, -0.00193786, -0.00611028, -0.02355231,  0.02730693,\n",
-       "                        0.0168157 ,  0.0453185 , -0.00795171, -0.0490472 ,  0.01299703,\n",
-       "                       -0.01211376, -0.04820883, -0.00058289,  0.03355829,  0.00526739,\n",
-       "                       -0.00226219, -0.00548809,  0.01104187, -0.01620302, -0.01379755,\n",
-       "                        0.03002222,  0.01691281, -0.03559435,  0.02778582,  0.00775762,\n",
-       "                        0.00697485, -0.00750486,  0.02037126,  0.01142175,  0.00481389,\n",
-       "                        0.00276021,  0.05482011,  0.04322674, -0.00956445,  0.00750658,\n",
-       "                       -0.03632697, -0.00013556, -0.03406565, -0.01553119,  0.00891615,\n",
-       "                       -0.03667552,  0.0512755 ,  0.0034136 ,  0.03808332, -0.01828413,\n",
-       "                        0.01024727,  0.03339678, -0.01204124,  0.01003862, -0.00612356,\n",
-       "                       -0.00908286,  0.01659943], dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_1): Dense(\n",
-       "                768, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
-       "                array([[ 0.0200138 ,  0.0453618 ,  0.05944573, ..., -0.03587371,\n",
-       "                         0.01224422, -0.00072175],\n",
-       "                       [ 0.02137091, -0.01859555, -0.04710541, ..., -0.02794299,\n",
-       "                         0.01419899, -0.0136291 ],\n",
-       "                       [-0.03292815,  0.00347762,  0.05609084, ...,  0.03168143,\n",
-       "                        -0.0128223 ,  0.00386102],\n",
-       "                       ...,\n",
-       "                       [-0.02450894, -0.02459157, -0.0068263 , ...,  0.04013702,\n",
-       "                        -0.00466742, -0.02921941],\n",
-       "                       [ 0.03239494, -0.00134928,  0.00123798, ...,  0.00292211,\n",
-       "                        -0.00111932,  0.02714985],\n",
-       "                       [-0.02418012,  0.01257174, -0.00812958, ..., -0.04709027,\n",
-       "                         0.01096694, -0.02088788]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
-       "                array([-3.33372578e-02, -1.20304301e-02, -2.64285505e-02, -8.84530786e-03,\n",
-       "                        9.27949324e-03, -1.14668226e-02, -3.10168378e-02, -1.43622728e-02,\n",
-       "                       -1.12179536e-02, -3.48813981e-02, -7.80524500e-03, -6.67409645e-03,\n",
-       "                       -2.71618329e-02,  1.33763952e-02, -1.43442694e-02, -2.26112269e-02,\n",
-       "                       -1.89228449e-02,  4.67353873e-03, -7.46711437e-03, -4.57441760e-03,\n",
-       "                       -1.14336181e-02, -3.73703078e-03, -4.13804967e-03, -2.49586198e-02,\n",
-       "                       -2.95854453e-02,  6.92587765e-03, -2.84688734e-03, -8.96761846e-03,\n",
-       "                        2.66582938e-04,  2.34540319e-03, -1.01395976e-02, -1.24753118e-02,\n",
-       "                       -2.55310051e-02, -1.66565515e-02, -2.73905843e-02, -1.69004244e-03,\n",
-       "                       -9.20773949e-03, -1.39765264e-02, -1.25533100e-02, -6.37155911e-03,\n",
-       "                       -2.09209453e-02, -3.99773149e-03, -1.79250874e-02,  4.29014070e-03,\n",
-       "                       -5.00511331e-03, -9.72811226e-03,  1.04333623e-04, -1.89962573e-02,\n",
-       "                       -1.60261542e-02, -1.94814522e-02,  1.01348842e-02, -8.10685009e-03,\n",
-       "                        2.04461813e-03, -2.24812888e-02, -6.67038467e-03, -1.02129420e-02,\n",
-       "                       -1.79766286e-02, -8.14508274e-03,  8.25855602e-03, -2.43141619e-03,\n",
-       "                       -7.08713830e-02, -1.82897076e-02, -2.60730693e-03, -1.65768694e-02,\n",
-       "                       -1.64023545e-02, -1.30782751e-02, -4.28689923e-03,  6.52118400e-03,\n",
-       "                       -1.96230076e-02, -3.99262942e-02, -2.73289271e-02,  4.30044835e-04,\n",
-       "                       -1.49638178e-02, -5.51447086e-02, -9.65916365e-03,  3.96977365e-03,\n",
-       "                        1.84384976e-02, -5.73096680e-04, -2.91963312e-04, -1.73625816e-02,\n",
-       "                       -3.48348282e-02, -7.23623345e-03, -1.28294611e-02, -1.53274667e-02,\n",
-       "                       -4.12606215e-03, -1.72958728e-02, -1.18990690e-02, -3.26990895e-02,\n",
-       "                       -4.20313291e-02,  5.03082108e-03,  2.19244440e-03, -2.19866037e-02,\n",
-       "                       -1.68198347e-02, -3.78365703e-02, -9.67846625e-03, -6.25378080e-03,\n",
-       "                       -1.03926891e-03,  1.34079829e-02,  3.34297912e-03, -2.53701061e-02,\n",
-       "                       -9.54755396e-03, -1.01934336e-02, -1.20657152e-02, -2.67628189e-02,\n",
-       "                       -8.09953455e-03, -6.08193688e-03,  3.38082924e-03, -1.18695842e-02,\n",
-       "                       -3.71371172e-02, -7.80474115e-03,  1.11220693e-02, -8.33167508e-03,\n",
-       "                       -5.58236428e-03, -1.80757064e-02, -2.09607501e-02,  5.48776379e-03,\n",
-       "                       -2.94951964e-02, -2.46344414e-02, -1.53862284e-02, -3.09490436e-03,\n",
-       "                       -3.11847795e-02, -1.71698779e-02, -3.63941677e-03, -2.74066366e-02,\n",
-       "                       -1.05475530e-03, -9.25327931e-03, -2.82230861e-02, -1.94824096e-02,\n",
-       "                       -1.38977701e-02, -1.04714287e-02,  4.30400576e-03, -2.20607650e-02,\n",
-       "                       -1.64322909e-02, -2.57586893e-02, -1.70667171e-02,  6.02981949e-04,\n",
-       "                       -2.33562738e-02,  6.21822709e-03, -3.45053500e-03, -1.09830648e-02,\n",
-       "                       -8.82339850e-03, -3.73522788e-02, -4.52396683e-02, -2.81988066e-02,\n",
-       "                        1.19963416e-03, -1.27797676e-02, -2.18338128e-02, -2.80943122e-02,\n",
-       "                       -3.59988119e-03, -1.18604396e-02, -6.16526231e-03,  2.33954028e-03,\n",
-       "                       -1.63589418e-03, -2.47196518e-02,  2.08187494e-02, -4.36770730e-02,\n",
-       "                       -3.05688493e-02, -1.34526286e-03, -3.30831483e-02,  3.23941559e-03,\n",
-       "                       -3.06175444e-02, -2.90571637e-02, -2.06385646e-02,  8.43056943e-03,\n",
-       "                        2.05167918e-03,  1.05036711e-02, -4.97501083e-02,  8.82736221e-03,\n",
-       "                       -3.26694426e-04, -1.03351744e-02,  8.86771642e-03, -2.79260948e-02,\n",
-       "                       -9.40874964e-03, -2.87361499e-02,  5.42023219e-03, -2.59471256e-02,\n",
-       "                       -4.26682644e-03, -1.39961147e-03,  5.25543839e-03,  1.44586945e-03,\n",
-       "                       -4.93929535e-03, -1.81996729e-02, -3.66596431e-02, -7.88619276e-03,\n",
-       "                       -7.22077349e-03, -1.38734980e-02, -2.62850765e-02, -1.04199219e-02,\n",
-       "                        4.22720285e-03, -4.93065640e-02, -1.53207366e-04,  1.66621129e-03,\n",
-       "                       -2.31967121e-02,  7.48836808e-03, -2.90694274e-02, -6.71045436e-03,\n",
-       "                       -2.49706525e-02, -3.15400236e-03, -2.88101286e-02, -1.17433537e-02,\n",
-       "                        1.22765440e-03, -8.89103208e-03, -1.20216729e-02, -2.58050431e-02,\n",
-       "                       -2.23770384e-02, -5.27241342e-02,  4.58361907e-03, -9.20900144e-03,\n",
-       "                       -4.86494834e-03,  5.95131190e-03, -3.35572027e-02, -5.22214063e-02,\n",
-       "                       -2.77308151e-02, -2.04498172e-02, -1.13594290e-02,  4.46268264e-03,\n",
-       "                       -1.38799436e-02, -2.00398602e-02, -1.42829427e-02,  4.64145560e-03,\n",
-       "                        2.28046585e-04, -4.69782483e-03, -2.27966066e-02,  7.99322035e-03,\n",
-       "                       -3.26800458e-02, -1.99418738e-02,  9.19471588e-03, -2.12415587e-02,\n",
-       "                       -2.27290746e-02, -1.31595824e-02, -1.15283253e-02, -7.50241475e-03,\n",
-       "                       -2.39377823e-02, -6.95785088e-03, -1.58205442e-02, -1.71613060e-02,\n",
-       "                       -1.08889155e-02, -2.31623300e-03, -1.26144765e-02, -1.01996101e-02,\n",
-       "                       -5.04346937e-03, -4.60104551e-03, -5.06210662e-02, -6.60978723e-03,\n",
-       "                       -5.96453110e-03, -7.14415684e-02, -1.78630725e-02,  5.41150104e-03,\n",
-       "                       -1.03690885e-02, -5.87195996e-03, -1.95817929e-02, -1.92977004e-02,\n",
-       "                        1.77244954e-02,  1.22857792e-03, -2.35614125e-02,  8.67873151e-03,\n",
-       "                       -1.04582077e-02, -1.39173279e-02, -3.24732549e-02, -3.26969177e-02,\n",
-       "                       -1.23288631e-02,  5.84124122e-03,  3.75783164e-03, -6.03185035e-02,\n",
-       "                       -5.38562834e-02, -1.87854804e-02,  1.52939111e-02, -1.73892621e-02,\n",
-       "                        1.84238015e-03,  4.95142397e-03, -3.33155915e-02, -1.19728940e-02,\n",
-       "                       -3.54210101e-03, -3.57735856e-03, -1.00171883e-02,  1.33268954e-02,\n",
-       "                        5.69132995e-03,  1.47731975e-02, -1.83567614e-03, -3.20666321e-02,\n",
-       "                       -2.86797527e-02, -2.64031384e-02, -7.56429462e-03, -1.20009044e-02,\n",
-       "                        1.12973684e-02, -5.62287122e-03, -1.97638269e-03, -2.07206514e-02,\n",
-       "                       -8.64086524e-02,  1.15817529e-04, -1.07997051e-02, -5.99109055e-03,\n",
-       "                        5.98610938e-03, -3.76985781e-03, -1.16103915e-02, -4.73026782e-02,\n",
-       "                       -3.24012749e-02, -1.52687272e-02,  1.39175309e-02, -3.89402099e-02,\n",
-       "                        4.79430798e-03, -3.10392287e-02, -1.22434238e-03, -1.20959114e-02,\n",
-       "                       -6.41068676e-03,  1.71033880e-05, -6.88490784e-03, -1.94683392e-02,\n",
-       "                       -1.64008960e-02, -2.63622683e-02, -5.85283060e-03, -1.85996443e-02,\n",
-       "                       -2.71032117e-02, -2.38017156e-03, -4.95283352e-03, -9.60978493e-03,\n",
-       "                       -1.25073837e-02, -1.55702140e-02, -1.95839349e-02, -2.03742441e-02,\n",
-       "                       -1.85265532e-03,  5.65958768e-03, -6.40596682e-03, -4.88626864e-03,\n",
-       "                       -2.15109205e-03, -9.18837916e-03, -2.19131261e-02, -3.64525206e-02,\n",
-       "                       -1.73025541e-02, -2.00000545e-03, -8.19304609e-04,  6.57165097e-03,\n",
-       "                       -6.28626253e-03, -2.95665115e-02, -6.25590011e-02, -1.84975117e-02,\n",
-       "                        6.67490123e-04, -2.22133230e-02, -1.77290067e-02, -3.24275382e-02,\n",
-       "                        7.81799573e-03, -2.80588735e-02, -1.20364176e-02, -7.06162909e-03,\n",
-       "                       -5.66909835e-03, -5.73322969e-03, -1.52700823e-02,  8.84732977e-03,\n",
-       "                       -1.49889970e-02, -1.92730948e-02,  1.35639915e-03, -3.77680473e-02,\n",
-       "                       -2.19104849e-02, -2.64837239e-02, -9.12345655e-04, -2.44116709e-02,\n",
-       "                        1.09210573e-02, -1.41132390e-04,  1.17622353e-02, -3.11280079e-02,\n",
-       "                        7.26891309e-03, -4.66628969e-02, -1.35422535e-02, -3.92462946e-02,\n",
-       "                       -3.86740407e-03, -1.41668820e-03,  1.08932122e-03, -1.82715822e-02,\n",
-       "                       -1.30463401e-02, -2.50185985e-04, -1.38900643e-02,  1.21532627e-04,\n",
-       "                       -7.55504519e-03, -6.68428373e-03,  3.75840045e-03,  3.87968845e-03,\n",
-       "                       -2.96963658e-02, -3.35212089e-02, -2.25975411e-03,  3.00933095e-03,\n",
-       "                       -4.02128510e-02, -1.42791662e-02, -5.48909791e-03, -3.20998975e-03,\n",
-       "                       -1.32048894e-02, -1.12547325e-02, -1.24998428e-02, -2.58491207e-02,\n",
-       "                        9.08760849e-05,  1.16652362e-02, -1.65408142e-02,  5.10796235e-05,\n",
-       "                       -8.15010723e-03, -1.28825111e-02, -3.89126949e-02, -9.37087275e-03,\n",
-       "                       -6.18562428e-03, -6.63009584e-02, -9.35898162e-03, -2.45649852e-02,\n",
-       "                       -7.92087708e-03, -1.31273726e-02, -1.97531860e-02, -1.37249520e-02,\n",
-       "                       -8.93866643e-03, -4.28636521e-02, -3.74601525e-03, -2.80440412e-02,\n",
-       "                       -1.74158271e-02,  9.33865644e-03,  4.91131470e-03,  1.11120502e-02,\n",
-       "                       -2.57497951e-02, -4.39163633e-02,  6.66483399e-03, -5.06761135e-04,\n",
-       "                       -2.32957341e-02, -2.53415443e-02, -4.46022581e-03,  1.13388188e-02,\n",
-       "                        2.02134461e-03, -1.31819705e-02,  1.01864496e-02, -3.78090749e-03,\n",
-       "                       -3.53341899e-03, -1.36399046e-02, -1.20440796e-02, -1.36488294e-02,\n",
-       "                       -1.38256513e-02, -6.28865436e-02, -4.16373424e-02, -4.74301493e-03,\n",
-       "                       -2.44922694e-02,  1.66400254e-03, -1.12737331e-03, -3.13604530e-03,\n",
-       "                       -3.24759744e-02, -1.65949818e-02,  2.92222598e-03, -1.58712268e-03,\n",
-       "                       -1.77903417e-02, -1.66294689e-03, -5.67669561e-03, -1.32287908e-02,\n",
-       "                       -1.93906557e-02, -4.19550687e-02,  1.61865051e-03, -2.05391757e-02,\n",
-       "                       -2.26580556e-02,  1.11057591e-02, -6.92468788e-03, -5.12448046e-03,\n",
-       "                       -3.18950079e-02, -4.35872423e-03, -2.53419876e-02,  1.55006526e-02,\n",
-       "                        1.20479669e-02, -1.77465249e-02, -2.14677062e-02,  2.35745008e-03,\n",
-       "                       -1.81921013e-02, -7.76443025e-03, -3.23890446e-04, -5.32940868e-03,\n",
-       "                        1.67221632e-02, -1.97462440e-02,  1.09343296e-02,  1.14851557e-02,\n",
-       "                       -2.77556907e-02, -8.87866947e-04,  1.33279143e-04, -5.81024587e-02,\n",
-       "                       -3.61334137e-03, -2.81540696e-02, -1.51612861e-02, -1.97562072e-02,\n",
-       "                        5.15708001e-04, -6.83074538e-03, -1.87120978e-02, -2.43883245e-02,\n",
-       "                       -7.91893061e-03, -4.11415892e-03, -8.43337551e-03,  1.16346637e-02,\n",
-       "                       -2.43854988e-02, -2.16020066e-02, -3.26048471e-02, -1.09725781e-02,\n",
-       "                       -3.57973687e-02, -5.08582965e-02, -1.33388182e-02,  5.90886362e-03,\n",
-       "                       -1.32997604e-02, -9.13704652e-03,  1.77791761e-03, -1.10328160e-02,\n",
-       "                        1.60120130e-02, -2.30981521e-02, -1.49227204e-02,  5.10551268e-03,\n",
-       "                        6.10626582e-03, -2.87795793e-02,  1.70728483e-03, -1.78763717e-02,\n",
-       "                       -1.94948930e-02, -1.66736473e-03, -1.70627479e-02,  1.37127992e-02,\n",
-       "                       -1.32692317e-02,  6.65037474e-03, -1.29313814e-02,  5.57297794e-03,\n",
-       "                       -1.12800766e-02,  4.67792340e-03, -7.82010332e-03, -4.64824103e-02,\n",
-       "                       -2.65281610e-02,  1.47148669e-02, -4.31900006e-03, -2.03008670e-02,\n",
-       "                       -2.63399538e-03, -2.16606539e-02, -1.90197546e-02, -1.78931039e-02,\n",
-       "                       -1.38731794e-02, -3.75676341e-02, -8.64620414e-03, -6.58054799e-02,\n",
-       "                       -1.70020033e-02, -3.28940749e-02,  4.65774618e-04, -1.98039897e-02,\n",
-       "                       -2.59156171e-02, -7.85135943e-03, -1.25278654e-02, -1.11970643e-03,\n",
-       "                       -2.91844960e-02, -1.97878089e-02,  2.52304319e-03,  5.96133480e-03,\n",
-       "                       -5.23802266e-02, -2.73484532e-02, -3.66229527e-02, -1.43872052e-02,\n",
-       "                       -4.07523988e-03, -5.29169776e-02, -2.10777409e-02, -3.25676277e-02,\n",
-       "                       -9.24565084e-03, -5.09950239e-03, -1.04549387e-02, -2.45881788e-02,\n",
-       "                       -3.48805226e-02, -5.53940125e-02, -3.37969400e-02, -5.90338185e-03,\n",
-       "                       -5.14366738e-02, -2.08435231e-03, -7.82921351e-03, -1.05392961e-02,\n",
-       "                       -6.99244160e-03, -2.68173851e-02, -1.15421731e-02, -2.56756227e-02,\n",
-       "                        1.55956158e-03, -4.72193910e-03, -1.58323143e-02, -9.19513591e-03,\n",
-       "                       -2.00888999e-02, -3.19119655e-02, -3.35531938e-03, -1.04231259e-03,\n",
-       "                       -9.81072523e-03, -1.77766923e-02, -2.31661070e-02, -3.86816682e-03,\n",
-       "                       -5.58865443e-03, -1.16977030e-02, -2.61800736e-02, -1.86645531e-03,\n",
-       "                       -3.06399371e-02, -9.05887131e-03, -1.93412770e-02, -5.43606542e-02,\n",
-       "                        2.60276510e-03, -8.96754768e-03, -3.24303173e-02, -3.29047143e-02,\n",
-       "                        2.46463460e-03, -3.13622109e-03, -1.11212321e-02, -1.36358421e-02,\n",
-       "                       -1.89102590e-02, -3.58816683e-02, -8.04788154e-03, -3.75765860e-02,\n",
-       "                        1.24625880e-02, -3.20654698e-02, -6.90695737e-03,  1.00988441e-03,\n",
-       "                        2.75147846e-03, -1.61069054e-02,  2.06897836e-02,  1.87683210e-03,\n",
-       "                       -1.62859093e-02, -2.90039498e-02, -1.36160792e-03, -1.72167066e-02,\n",
-       "                        7.65678659e-03,  2.95401318e-04, -7.96781853e-03, -3.59004922e-02,\n",
-       "                       -1.22297904e-03,  1.20183127e-02, -3.44441235e-02,  3.89194262e-04,\n",
-       "                       -2.51837485e-02, -1.65693760e-02, -3.02922279e-02,  6.05576904e-03,\n",
-       "                        3.68867512e-03,  3.91587103e-03, -6.81368308e-03, -6.03012135e-03,\n",
-       "                       -1.47708375e-02, -1.30854193e-02, -9.50133801e-03, -3.45344692e-02,\n",
-       "                       -2.94285733e-02,  8.44507944e-03, -2.27477471e-03, -1.56889744e-02,\n",
-       "                        1.59581471e-02, -1.25193940e-02, -1.91157572e-02, -3.21304277e-02,\n",
-       "                        8.02859943e-03, -8.64375941e-03,  3.78777785e-03, -6.59673940e-03,\n",
-       "                       -3.39506269e-02,  5.64883510e-03, -6.13440014e-02, -7.93107785e-03,\n",
-       "                       -1.50270360e-02, -1.61594078e-02, -1.94392912e-02, -1.68349724e-02,\n",
-       "                        3.09064277e-02,  4.93095955e-03, -3.94429043e-02, -1.15872324e-02,\n",
-       "                       -1.28836315e-02, -2.01286804e-02, -3.84248607e-02, -3.05649750e-02,\n",
-       "                       -1.04364334e-02, -2.77922582e-03, -2.36243010e-02, -2.01014858e-02,\n",
-       "                       -4.84081805e-02, -2.26343190e-03,  6.25391584e-03, -6.36793440e-03,\n",
-       "                       -6.46613713e-04, -9.01893992e-03, -3.63259926e-03, -6.74518943e-03,\n",
-       "                       -2.59635970e-02, -2.46191379e-02, -1.03657711e-02, -2.07470562e-02,\n",
-       "                       -7.71256257e-03, -2.91075669e-02, -1.47521086e-02, -7.92815816e-03,\n",
-       "                       -6.64313324e-03, -1.91371590e-02, -1.40240137e-02, -5.21422923e-02,\n",
-       "                       -3.74027751e-02, -2.06586719e-03, -3.58425593e-03, -2.08234824e-02,\n",
-       "                       -2.45748758e-02,  9.72781982e-03, -4.43681739e-02, -8.66457354e-03,\n",
-       "                       -4.82482389e-02, -1.56797916e-02, -2.47380249e-02,  1.87400840e-02,\n",
-       "                       -3.79825868e-02, -1.38318846e-02, -2.10447628e-02,  1.08323405e-02,\n",
-       "                       -2.42531281e-02,  1.12944627e-02,  2.59104045e-03, -1.14521887e-02,\n",
-       "                       -1.68768931e-02, -1.68022700e-02, -5.14307059e-03,  3.44281056e-04,\n",
-       "                       -4.87398217e-03, -9.55253374e-03, -1.22880088e-02, -2.63365097e-02,\n",
-       "                       -3.84489149e-02, -2.61132549e-02, -7.96650629e-03, -1.69632696e-02,\n",
-       "                       -1.71560347e-02, -2.25002784e-02, -8.88591073e-03, -2.72413641e-02,\n",
-       "                       -2.03668867e-04, -1.90096684e-02,  8.35950393e-03, -1.64371338e-02,\n",
-       "                        1.47741567e-02, -5.84984869e-02, -1.04708606e-02, -1.68935489e-02,\n",
-       "                       -3.54976244e-02, -2.78694136e-03, -1.73107199e-02,  5.00151608e-03,\n",
-       "                       -3.82142793e-03,  1.13632660e-02, -1.49819618e-02,  1.17110950e-03,\n",
-       "                       -2.05652462e-03, -8.59066565e-03, -2.67075058e-02, -2.47322544e-02,\n",
-       "                       -7.30546482e-04, -2.14617644e-02, -2.84397081e-02, -1.64100621e-02,\n",
-       "                       -1.08914925e-02, -1.72290541e-02, -1.59400273e-02,  8.52343906e-03,\n",
-       "                       -6.42960984e-03, -1.95234921e-02, -2.53217611e-02, -1.46880426e-04,\n",
-       "                       -4.34152931e-02, -2.06201486e-02, -7.12397024e-02, -8.53891764e-03,\n",
-       "                       -9.43581574e-03,  3.32818925e-02, -1.99020449e-02, -8.32063705e-03,\n",
-       "                       -1.83409415e-02, -1.25894314e-02,  1.62209210e-03, -3.50676570e-03,\n",
-       "                       -2.81427167e-02, -1.38427606e-02,  3.03339353e-03, -2.49240994e-02,\n",
-       "                        7.31371716e-03, -1.02051990e-02, -1.33559704e-02, -6.67838380e-04],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (layer_2): Dense(\n",
-       "                192, activation=linear, use_bias=True\n",
-       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
-       "                array([[-0.00277009, -0.00766354,  0.00111258, ...,  0.0023168 ,\n",
-       "                        -0.00371265,  0.03133386],\n",
-       "                       [ 0.01033583,  0.01263355,  0.00214211, ..., -0.03399085,\n",
-       "                         0.01188842, -0.0047044 ],\n",
-       "                       [ 0.03755607,  0.01134737, -0.00071585, ...,  0.00905287,\n",
-       "                         0.0055303 ,  0.00608071],\n",
-       "                       ...,\n",
-       "                       [-0.02624071,  0.00230232, -0.0022273 , ...,  0.02333591,\n",
-       "                        -0.00608842, -0.00880447],\n",
-       "                       [ 0.02174632, -0.01645869,  0.00782272, ..., -0.02966961,\n",
-       "                        -0.0024398 ,  0.01270658],\n",
-       "                       [ 0.00865628, -0.00132068, -0.02910091, ...,  0.00513306,\n",
-       "                         0.0078499 ,  0.0188979 ]], dtype=float32)>\n",
-       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
-       "                array([ 2.13714177e-03,  7.69167487e-03, -5.89249097e-03,  9.38836485e-03,\n",
-       "                        4.06415015e-03,  2.61747669e-02,  2.37808824e-02, -1.49717368e-03,\n",
-       "                       -1.51039485e-03,  3.72942095e-03,  1.19742397e-02,  4.87796776e-03,\n",
-       "                        6.80093654e-04, -7.29197753e-04, -5.09615056e-03, -1.20036164e-02,\n",
-       "                       -1.96033157e-02,  9.48915444e-03, -2.59881979e-03, -1.12662334e-02,\n",
-       "                        7.63040036e-03,  5.20693026e-02, -5.27575146e-03,  3.14396597e-03,\n",
-       "                        1.55584817e-03, -1.92209911e-02, -7.76566193e-03,  1.75420791e-02,\n",
-       "                        4.84731398e-04,  5.83604816e-03, -8.13735416e-04, -4.79252115e-02,\n",
-       "                       -1.84813831e-02, -2.28549889e-03, -6.95835566e-03, -5.86241111e-03,\n",
-       "                       -5.69443172e-03,  1.65568888e-02, -1.38337014e-03,  1.48930652e-02,\n",
-       "                        6.02127891e-03, -1.39874406e-02, -1.65665802e-02,  9.20123979e-03,\n",
-       "                        2.05240049e-03,  1.01555558e-02,  1.16605442e-02,  1.38822282e-02,\n",
-       "                        8.48454516e-03,  8.67671042e-04,  9.06788185e-03,  2.90332711e-03,\n",
-       "                        5.12160128e-03, -7.77168153e-03, -7.38827465e-03, -6.99232193e-03,\n",
-       "                       -1.00234915e-02, -1.26919309e-02, -3.56813939e-03, -8.51563271e-03,\n",
-       "                       -5.44333598e-03, -1.24330847e-02,  7.89948646e-03, -5.10330265e-03,\n",
-       "                        8.52113962e-03, -4.80575487e-03,  5.86674875e-03, -7.98383448e-03,\n",
-       "                       -1.58236409e-03, -3.90194566e-03, -3.19704623e-03, -1.27897607e-02,\n",
-       "                       -1.08337877e-02, -2.88095623e-02,  2.85866234e-04, -8.40043090e-03,\n",
-       "                        1.68466531e-02, -9.48300865e-03,  1.07089747e-02, -6.55804481e-03,\n",
-       "                        1.07785873e-02, -2.03706510e-03, -6.23795530e-03,  1.84131053e-03,\n",
-       "                       -1.19226137e-02, -1.19245518e-02,  1.07499138e-02, -1.60556356e-03,\n",
-       "                        1.48513662e-02,  8.42911075e-04, -7.61739630e-03, -1.00078341e-02,\n",
-       "                       -6.85031665e-03,  6.62403181e-05, -1.47380102e-02,  1.06051601e-02,\n",
-       "                       -1.52580086e-02,  4.62111458e-03, -7.25929858e-03, -9.87567380e-03,\n",
-       "                       -2.11753566e-02, -2.81897746e-03,  7.57926563e-03,  1.56047642e-02,\n",
-       "                       -5.49622765e-03, -1.26458518e-02, -4.95762797e-04, -1.26452465e-02,\n",
-       "                       -5.07163466e-04, -2.44214141e-04, -1.36806136e-02, -6.36481447e-03,\n",
-       "                        9.41760000e-03, -2.01441571e-02,  5.63550880e-03, -9.40112583e-03,\n",
-       "                        8.10766220e-03, -3.01348814e-03, -5.85703761e-04, -6.87783398e-03,\n",
-       "                       -2.04759687e-02,  5.50722983e-03,  1.64064090e-03,  2.13566399e-03,\n",
-       "                       -2.66503030e-03,  1.19713731e-02, -2.46646977e-03,  1.18620200e-02,\n",
-       "                       -9.19723790e-03, -1.83394272e-03,  1.11400019e-02, -7.83916272e-04,\n",
-       "                       -1.84947625e-02, -1.56250689e-02, -4.50070575e-03,  4.96139983e-05,\n",
-       "                        1.15786900e-03, -1.15699519e-03,  8.74574110e-03,  7.34791812e-03,\n",
-       "                       -1.66535741e-04, -4.48113959e-03, -2.73513864e-03,  1.59729156e-03,\n",
-       "                       -4.85743620e-02,  1.04213860e-02,  1.65184797e-03, -8.78975447e-03,\n",
-       "                        2.33145412e-02,  2.71241821e-04, -5.57205081e-03, -6.47265138e-03,\n",
-       "                        7.14300759e-03,  1.50586208e-02, -7.69229233e-03, -6.83056330e-03,\n",
-       "                        1.11706341e-02, -5.33302967e-03,  1.01505285e-02, -1.04286522e-03,\n",
-       "                        5.20325173e-03,  7.18424190e-03, -5.82816964e-03, -1.94616728e-02,\n",
-       "                       -9.02798609e-04, -1.22039793e-02, -1.85265485e-02,  6.41540438e-03,\n",
-       "                        2.65102787e-03,  1.07528424e-04,  8.87938961e-03, -6.68506231e-03,\n",
-       "                        6.87584700e-03, -5.48701826e-03,  8.97261198e-04, -1.17392847e-02,\n",
-       "                       -9.75791924e-03,  1.70990115e-03, -5.55254053e-03,  1.12752430e-02,\n",
-       "                       -6.84495084e-04,  1.56747233e-02,  1.91728352e-03, -1.50278080e-02,\n",
-       "                        5.20985387e-03, -2.47837487e-03,  2.45351926e-03,  6.19899435e-03,\n",
-       "                        1.05873914e-02,  8.07140023e-03, -5.94343990e-04, -3.08463769e-03],\n",
-       "                      dtype=float32)>\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (dropout): Dropout(\n",
-       "                (_feature_shapes): Dict()\n",
-       "                (_feature_dtypes): Dict()\n",
-       "              )\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (dropout): Dropout(\n",
-       "              (_feature_shapes): Dict()\n",
-       "              (_feature_dtypes): Dict()\n",
-       "            )\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (dropout): Dropout(\n",
-       "          (_feature_shapes): Dict()\n",
-       "          (_feature_dtypes): Dict()\n",
-       "        )\n",
-       "        (_kwargs): Dict(\n",
-       "          (name): 'transformer'\n",
-       "          (trainable): True\n",
-       "          (dtype): 'float32'\n",
-       "        )\n",
-       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
-       "        array([[[ 4.04036790e-03,  2.15086387e-03,  1.04019826e-03,\n",
-       "                 -1.42265148e-02,  1.21783582e-04,  8.70395917e-03,\n",
-       "                  6.63713319e-03,  7.36431265e-03, -1.54305118e-04,\n",
-       "                 -9.43066180e-03, -1.04995137e-02,  8.46136641e-03,\n",
-       "                  7.09149288e-04,  7.55310385e-03,  1.56539027e-02,\n",
-       "                 -1.72090076e-03,  4.24924027e-03, -5.31134475e-03,\n",
-       "                 -1.48346564e-02, -2.87283910e-03,  6.70258282e-03,\n",
-       "                 -1.77564528e-02,  7.61946477e-03,  9.40683205e-03,\n",
-       "                 -6.71640271e-03,  8.04069825e-03, -6.12986507e-03,\n",
-       "                  4.19179862e-03, -8.79541412e-03, -1.18354000e-02,\n",
-       "                  1.18796797e-02, -4.27424023e-03,  5.22729533e-04,\n",
-       "                 -2.82752240e-04, -5.58008580e-03,  8.65907688e-03,\n",
-       "                  1.38010653e-02,  1.27496161e-02,  1.39875710e-03,\n",
-       "                  2.82851863e-03,  9.22558014e-04, -9.95281339e-03,\n",
-       "                 -1.83557272e-02,  1.69160645e-02,  1.07988389e-02,\n",
-       "                 -9.23428405e-03, -4.20611026e-03, -1.25393076e-02,\n",
-       "                 -3.94632109e-03, -9.12902178e-04,  5.01031801e-03,\n",
-       "                 -9.91391484e-03,  3.60712525e-04, -4.11095610e-03,\n",
-       "                  7.01457262e-03, -3.89575318e-04, -9.14055016e-03,\n",
-       "                 -1.23113198e-02,  3.95737030e-03, -3.31253605e-03,\n",
-       "                 -1.13035142e-02, -1.94670074e-02,  1.20422023e-03,\n",
-       "                 -1.42025901e-03,  6.52758172e-03,  1.50428945e-02,\n",
-       "                  1.14396252e-02,  9.52708255e-03, -1.09730114e-03,\n",
-       "                 -1.33979488e-02, -1.07515557e-02,  9.95630212e-03,\n",
-       "                 -4.52685449e-03,  5.00414427e-03, -1.98842213e-03,\n",
-       "                  1.37774022e-02,  5.30165201e-03,  1.23802433e-03,\n",
-       "                 -4.73509915e-03,  1.11496374e-02,  1.02096051e-02,\n",
-       "                 -4.51285811e-03, -3.92367877e-03, -7.36222602e-04,\n",
-       "                 -9.84671526e-03, -1.30903888e-02, -1.32385455e-02,\n",
-       "                 -5.05355746e-03,  1.77229438e-02, -1.26720043e-02,\n",
-       "                 -3.81861255e-03,  1.92409288e-03,  4.43383912e-03,\n",
-       "                 -2.90768524e-03, -3.23669449e-03, -6.66979142e-03,\n",
-       "                 -2.06012907e-03, -1.12843849e-02,  4.79723467e-03,\n",
-       "                  4.63116821e-03,  5.16073406e-03,  8.70506628e-05,\n",
-       "                 -5.35136508e-03, -6.81748800e-03,  1.07775088e-02,\n",
-       "                  6.40543317e-03, -5.58225671e-03,  1.11177545e-02,\n",
-       "                 -1.27711734e-02,  5.51164476e-03,  1.43165309e-02,\n",
-       "                 -1.18009234e-02,  1.00297267e-02,  2.94128619e-03,\n",
-       "                  5.09045878e-03,  6.01266325e-03,  3.48583143e-03,\n",
-       "                 -9.97739006e-03,  5.73237287e-03, -1.74200535e-02,\n",
-       "                 -1.05477320e-02, -6.82158954e-03, -1.22792637e-02,\n",
-       "                  1.54061895e-02,  6.61997357e-03, -6.48623565e-03,\n",
-       "                  1.03507945e-02,  4.72886208e-03,  3.41648381e-04,\n",
-       "                  1.56227135e-04, -6.57477323e-03,  1.07179703e-02,\n",
-       "                  1.44143337e-02, -5.46780648e-03,  6.18689740e-03,\n",
-       "                 -9.73255560e-03, -2.16128258e-03, -1.91180315e-03,\n",
-       "                  3.76634533e-03,  2.67042592e-03, -2.67445343e-03,\n",
-       "                  3.32484627e-03,  1.01211574e-02,  2.27720127e-03,\n",
-       "                  7.88620266e-04, -1.48888072e-02,  7.72451982e-03,\n",
-       "                 -1.09812963e-05,  1.72610395e-02, -1.04232905e-02,\n",
-       "                 -5.94944111e-04,  8.15481320e-03, -1.07726390e-02,\n",
-       "                  2.42098351e-03, -7.10068317e-03,  1.06540425e-02,\n",
-       "                  9.72479582e-03,  4.19085007e-03,  5.90282353e-03,\n",
-       "                  1.59875136e-02, -1.69793852e-02,  1.46484468e-04,\n",
-       "                 -9.65306722e-03, -2.21638312e-03, -1.99070992e-03,\n",
-       "                  1.52429137e-02,  7.03723729e-03, -3.10059241e-03,\n",
-       "                  1.18050715e-02,  1.10457819e-02, -8.42266437e-03,\n",
-       "                 -9.11685079e-03, -1.46749020e-02, -5.18356264e-03,\n",
-       "                 -1.54700959e-02,  1.13772415e-02, -5.09043923e-03,\n",
-       "                 -1.58989453e-03, -1.11678680e-02, -1.49724097e-03,\n",
-       "                  2.78852787e-03, -8.65777209e-03,  3.00176186e-03,\n",
-       "                 -1.46945333e-02,  8.13734066e-03,  7.89561775e-03,\n",
-       "                  1.56951277e-03,  7.45176163e-04, -1.99116878e-02,\n",
-       "                  4.55260696e-03, -6.38728775e-03, -4.85596713e-03]]],\n",
-       "              dtype=float32)>\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (transformer_pre): PrepareTransformerInputs(\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (transformer_post): LastHiddenState(\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_masking_post): SequentialBlock(\n",
-       "        (layers): List(\n",
-       "          (0): TransformerOutputToRagged(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): TransformerInferenceHiddenState(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_masking_pre): SequentialBlock(\n",
-       "        (layers): List(\n",
-       "          (0): SequenceCausalLastInference(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "          (1): ExtractMaskFromTargets(\n",
-       "            (_feature_shapes): Dict()\n",
-       "            (_feature_dtypes): Dict()\n",
-       "          )\n",
-       "        )\n",
-       "        (_feature_shapes): Dict()\n",
-       "        (_feature_dtypes): Dict()\n",
-       "      )\n",
-       "      (_feature_shapes): Dict()\n",
-       "      (_feature_dtypes): Dict()\n",
-       "    )\n",
-       "  )\n",
-       "  (signatures): _SignatureMap({'serving_default': <ConcreteFunction signature_wrapper(*, sess_pid_seq__offsets, sess_pid_seq__values) at 0x7FC36CD996D0>})\n",
-       ")"
-      ]
-     },
-     "execution_count": 19,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "model_transformer.load('t4rec_model')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 20,
+   "execution_count": null,
    "id": "4c62973a",
    "metadata": {},
    "outputs": [],
@@ -13524,26 +1277,17 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 21,
+   "execution_count": null,
    "id": "e5db703a",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/dataloader/tensorflow.py:65: UserWarning: Due to a CUDA memory alignment issue in some Tensorflow operations such as Embedding ops, we recommend that 'batch_size' be at least 16 and also a power of two. Please change 'batch_size' to a number that is a power of two that is greater than or equal to 16.\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "loader = Loader(valid, batch_size=1)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 22,
+   "execution_count": null,
    "id": "e11f107c",
    "metadata": {},
    "outputs": [],
@@ -13553,7 +1297,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 23,
+   "execution_count": null,
    "id": "c216e7fb",
    "metadata": {},
    "outputs": [],
@@ -13566,43 +1310,20 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 24,
+   "execution_count": null,
    "id": "ea436b46",
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "({'sess_pid_seq__values': <tf.Tensor: shape=(20,), dtype=int32, numpy=\n",
-       "  array([ 204,  241,  506, 1105, 1851, 1720,  497,  685, 2197, 2575, 2508,\n",
-       "         1450, 1493, 2365, 2086, 3363, 8740, 5932, 2748, 5932], dtype=int32)>,\n",
-       "  'sess_pid_seq__offsets': <tf.Tensor: shape=(2,), dtype=int32, numpy=array([ 0, 20], dtype=int32)>},\n",
-       " None)"
-      ]
-     },
-     "execution_count": 24,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "b"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 25,
+   "execution_count": null,
    "id": "dcd414a9",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "50.1 ms ± 78.3 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "%%timeit\n",
     "\n",
@@ -13611,18 +1332,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": null,
    "id": "b6244062",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "297 ms ± 753 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "%%timeit\n",
     "\n",
@@ -13632,180 +1345,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": null,
    "id": "5bd66ba8",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /tmp/tmpvsz5e5b2/model.savedmodel/assets\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /tmp/tmpvsz5e5b2/model.savedmodel/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  return generic_utils.serialize_keras_object(obj)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "from merlin.systems.dag.ops.workflow import TransformWorkflow\n",
     "from merlin.systems.dag.ops.tensorflow import PredictTensorflow\n",
@@ -13815,21 +1358,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 33,
-   "id": "3ef1e5fc",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# import merlin.models.tf as mm\n",
-    "# import tensorflow as tf\n",
-    "# tf_model_path = os.path.join('t4rec_model')\n",
-    "\n",
-    "# model = tf.keras.models.load_model(tf_model_path)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 28,
+   "execution_count": null,
    "id": "e2a7b6ee",
    "metadata": {},
    "outputs": [],
@@ -13842,232 +1371,20 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 29,
+   "execution_count": null,
    "id": "55ad012c",
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>name</th>\n",
-       "      <th>tags</th>\n",
-       "      <th>dtype</th>\n",
-       "      <th>is_list</th>\n",
-       "      <th>is_ragged</th>\n",
-       "      <th>properties.domain.min</th>\n",
-       "      <th>properties.domain.max</th>\n",
-       "      <th>properties.domain.name</th>\n",
-       "      <th>properties.value_count.min</th>\n",
-       "      <th>properties.value_count.max</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>sess_pid_seq</td>\n",
-       "      <td>(Tags.LIST, Tags.ITEM_ID, Tags.CATEGORICAL, Ta...</td>\n",
-       "      <td>DType(name='int64', element_type=&lt;ElementType....</td>\n",
-       "      <td>True</td>\n",
-       "      <td>True</td>\n",
-       "      <td>1</td>\n",
-       "      <td>390000</td>\n",
-       "      <td>sess_pid_seq</td>\n",
-       "      <td>2</td>\n",
-       "      <td>None</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "[{'name': 'sess_pid_seq', 'tags': {<Tags.LIST: 'list'>, <Tags.ITEM_ID: 'item_id'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ID: 'id'>}, 'properties': {'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, 'dtype': DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), 'is_list': True, 'is_ragged': True}]"
-      ]
-     },
-     "execution_count": 29,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "train.schema.select_by_name('sess_pid_seq')"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 30,
+   "execution_count": null,
    "id": "1a39b4f8",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel/assets\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  return generic_utils.serialize_keras_object(obj)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "from merlin.systems.dag.ensemble import Ensemble\n",
     "\n",
@@ -14077,156 +1394,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 31,
+   "execution_count": null,
    "id": "d7cdc6cc",
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "<subprocess.Popen at 0x7fc2ffc722b0>"
-      ]
-     },
-     "execution_count": 31,
-     "metadata": {},
-     "output_type": "execute_result"
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "I0509 01:55:17.511153 1205 pinned_memory_manager.cc:240] Pinned memory pool is created at '0x7ff516000000' with size 268435456\n",
-      "I0509 01:55:17.511472 1205 cuda_memory_manager.cc:105] CUDA memory pool is created on device 0 with size 67108864\n",
-      "I0509 01:55:17.513574 1205 model_lifecycle.cc:459] loading: executor_model:1\n",
-      "I0509 01:55:17.513595 1205 model_lifecycle.cc:459] loading: 0_transformworkflowtriton:1\n",
-      "I0509 01:55:17.513608 1205 model_lifecycle.cc:459] loading: 1_predicttensorflowtriton:1\n",
-      "I0509 01:55:17.693342 1205 tensorflow.cc:2536] TRITONBACKEND_Initialize: tensorflow\n",
-      "I0509 01:55:17.693362 1205 tensorflow.cc:2546] Triton TRITONBACKEND API version: 1.10\n",
-      "I0509 01:55:17.693365 1205 tensorflow.cc:2552] 'tensorflow' TRITONBACKEND API version: 1.10\n",
-      "I0509 01:55:17.693368 1205 tensorflow.cc:2576] backend configuration:\n",
-      "{\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}}\n",
-      "2023-05-09 01:55:18.992767: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:55:20.814292: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:20.814710: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:20.814876: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "I0509 01:55:22.571307 1205 tensorflow.cc:2642] TRITONBACKEND_ModelInitialize: 1_predicttensorflowtriton (version 1)\n",
-      "2023-05-09 01:55:22.571962: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:22.592315: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
-      "2023-05-09 01:55:22.592352: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:22.592474: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:55:22.593417: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.609446: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.609627: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.855175: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.855338: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.855479: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:22.855607: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 29840 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
-      "2023-05-09 01:55:22.913337: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:354] MLIR V1 optimization pass is not enabled\n",
-      "2023-05-09 01:55:22.922530: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n",
-      "2023-05-09 01:55:23.337695: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:23.403830: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 831878 microseconds.\n",
-      "2023-05-09 01:55:24.746386: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:55:26.581369: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:26.581724: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:26.581886: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
-      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
-      "I0509 01:55:28.344195 1205 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: executor_model_0 (GPU device 0)\n",
-      "2023-05-09 01:55:29.628356: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:55:31.434543: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.434993: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.435198: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "I0509 01:55:31.465538 1205 tensorflow.cc:2691] TRITONBACKEND_ModelInstanceInitialize: 1_predicttensorflowtriton_0 (GPU device 0)\n",
-      "I0509 01:55:31.465701 1205 model_lifecycle.cc:694] successfully loaded 'executor_model' version 1\n",
-      "2023-05-09 01:55:31.465951: I tensorflow/cc/saved_model/reader.cc:45] Reading SavedModel from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:31.490532: I tensorflow/cc/saved_model/reader.cc:89] Reading meta graph with tags { serve }\n",
-      "2023-05-09 01:55:31.490575: I tensorflow/cc/saved_model/reader.cc:130] Reading SavedModel debug info (if present) from: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:31.490777: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.491003: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.491186: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.491411: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.491588: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:31.491744: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1637] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 29840 MB memory:  -> device: 0, name: Quadro RTX 8000, pci bus id: 0000:08:00.0, compute capability: 7.5\n",
-      "2023-05-09 01:55:31.549442: I tensorflow/cc/saved_model/loader.cc:231] Restoring SavedModel bundle.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-05-09 01:55:32.146750: I tensorflow/cc/saved_model/loader.cc:215] Running initialization op on SavedModel bundle at path: /workspace/models_for_benchmarking/1_predicttensorflowtriton/1/model.savedmodel\n",
-      "2023-05-09 01:55:32.213463: I tensorflow/cc/saved_model/loader.cc:325] SavedModel load for tags { serve }; Status: success: OK. Took 747520 microseconds.\n",
-      "I0509 01:55:32.213572 1205 python_be.cc:1856] TRITONBACKEND_ModelInstanceInitialize: 0_transformworkflowtriton_0 (GPU device 0)\n",
-      "I0509 01:55:32.213757 1205 model_lifecycle.cc:694] successfully loaded '1_predicttensorflowtriton' version 1\n",
-      "2023-05-09 01:55:33.476455: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
-      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2023-05-09 01:55:35.263779: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:35.264127: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "2023-05-09 01:55:35.264284: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n",
-      "I0509 01:55:35.317101 1205 model_lifecycle.cc:694] successfully loaded '0_transformworkflowtriton' version 1\n",
-      "I0509 01:55:35.317235 1205 server.cc:563] \n",
-      "+------------------+------+\n",
-      "| Repository Agent | Path |\n",
-      "+------------------+------+\n",
-      "+------------------+------+\n",
-      "\n",
-      "I0509 01:55:35.317307 1205 server.cc:590] \n",
-      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "| Backend    | Path                                                            | Config                                                                                                                                                        |\n",
-      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "| python     | /opt/tritonserver/backends/python/libtriton_python.so           | {\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}} |\n",
-      "| tensorflow | /opt/tritonserver/backends/tensorflow2/libtriton_tensorflow2.so | {\"cmdline\":{\"auto-complete-config\":\"true\",\"min-compute-capability\":\"6.000000\",\"backend-directory\":\"/opt/tritonserver/backends\",\"default-max-batch-size\":\"4\"}} |\n",
-      "+------------+-----------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "\n",
-      "I0509 01:55:35.317350 1205 server.cc:633] \n",
-      "+---------------------------+---------+--------+\n",
-      "| Model                     | Version | Status |\n",
-      "+---------------------------+---------+--------+\n",
-      "| 0_transformworkflowtriton | 1       | READY  |\n",
-      "| 1_predicttensorflowtriton | 1       | READY  |\n",
-      "| executor_model            | 1       | READY  |\n",
-      "+---------------------------+---------+--------+\n",
-      "\n",
-      "I0509 01:55:35.343214 1205 metrics.cc:864] Collecting metrics for GPU 0: Quadro RTX 8000\n",
-      "I0509 01:55:35.343395 1205 metrics.cc:757] Collecting CPU metrics\n",
-      "I0509 01:55:35.343534 1205 tritonserver.cc:2264] \n",
-      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "| Option                           | Value                                                                                                                                                                                                |\n",
-      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "| server_id                        | triton                                                                                                                                                                                               |\n",
-      "| server_version                   | 2.28.0                                                                                                                                                                                               |\n",
-      "| server_extensions                | classification sequence model_repository model_repository(unload_dependents) schedule_policy model_configuration system_shared_memory cuda_shared_memory binary_tensor_data statistics trace logging |\n",
-      "| model_repository_path[0]         | /workspace/models_for_benchmarking/                                                                                                                                                                  |\n",
-      "| model_control_mode               | MODE_NONE                                                                                                                                                                                            |\n",
-      "| strict_model_config              | 0                                                                                                                                                                                                    |\n",
-      "| rate_limit                       | OFF                                                                                                                                                                                                  |\n",
-      "| pinned_memory_pool_byte_size     | 268435456                                                                                                                                                                                            |\n",
-      "| cuda_memory_pool_byte_size{0}    | 67108864                                                                                                                                                                                             |\n",
-      "| response_cache_byte_size         | 0                                                                                                                                                                                                    |\n",
-      "| min_supported_compute_capability | 6.0                                                                                                                                                                                                  |\n",
-      "| strict_readiness                 | 1                                                                                                                                                                                                    |\n",
-      "| exit_timeout                     | 30                                                                                                                                                                                                   |\n",
-      "+----------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+\n",
-      "\n",
-      "I0509 01:55:35.344357 1205 grpc_server.cc:4819] Started GRPCInferenceService at 0.0.0.0:8001\n",
-      "I0509 01:55:35.344507 1205 http_server.cc:3477] Started HTTPService at 0.0.0.0:8000\n",
-      "I0509 01:55:35.385232 1205 http_server.cc:184] Started Metrics Service at 0.0.0.0:8002\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "2023-05-09 01:56:23.448369: I tensorflow/stream_executor/cuda/cuda_dnn.cc:424] Loaded cuDNN version 8700\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "import nvtabular.inference.triton as nvt_triton\n",
     "import tritonclient.grpc as grpcclient\n",
@@ -14234,701 +1405,6 @@
     "\n",
     "subprocess.Popen(['tritonserver', '--model-repository=/workspace/models_for_benchmarking/'])"
    ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "6f63b425",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "4a772eeb",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# !pkill triton"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "f6ed7b5a",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import tritonhttpclient\n",
-    "try:\n",
-    "    triton_client = tritonhttpclient.InferenceServerClient(url=\"localhost:8000\", verbose=True)\n",
-    "    print(\"client created.\")\n",
-    "except Exception as e:\n",
-    "    print(\"channel creation failed: \" + str(e))\n",
-    "triton_client.is_server_live()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "10c2a62e",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "validation_data.iloc[]"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "2c2723e9",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from merlin.systems.triton import convert_df_to_triton_input\n",
-    "\n",
-    "validation_data = valid.compute()\n",
-    "inputs = convert_df_to_triton_input(wf.input_schema, validation_data.iloc[:1])"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "fa9fc0dd",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "inputs[0].name()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "6ae7eb08",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "inputs[0].shape()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "ac3596c3",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "inputs[1].name()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "18f8e77d",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "inputs[1].shape()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "292b58da",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "validation_data.iloc[:1]"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "f8e1fd90",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "wf.input_schema"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "5a79c58f",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import tritonclient.grpc as grpcclient\n",
-    "\n",
-    "with grpcclient.InferenceServerClient(\"localhost:8001\") as client:\n",
-    "    response = client.infer('1_predicttensorflowtriton', inputs)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "b6dd51a6",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "response.get_output('sess_pid_seq/categorical_output')"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "ba6712bb",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "637eb3f0",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "fd62f641",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 16,
-   "id": "d1bc6530",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
-      "  (_feature_shapes): Dict(\n",
-      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
-      "  )\n",
-      "  (_feature_dtypes): Dict(\n",
-      "    (sess_pid_seq): tf.int32\n",
-      "  )\n",
-      "), because it is not built.\n",
-      "WARNING:absl:Function `_wrapped_model` contains input name(s) sess_pid_seq with unsupported characters which will be renamed to sess_pid_seq_1 in the SavedModel.\n",
-      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 110). These functions will not be directly callable after loading.\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/0_predicttensorflowtriton/1/model.savedmodel/assets\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "INFO:tensorflow:Assets written to: /workspace/models_for_benchmarking/0_predicttensorflowtriton/1/model.savedmodel/assets\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:83: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/saving/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
-      "  return generic_utils.serialize_keras_object(obj)\n",
-      "/usr/local/lib/python3.8/dist-packages/merlin/schema/tags.py:149: UserWarning: Compound tags like Tags.ITEM_ID have been deprecated and will be removed in a future version. Please use the atomic versions of these tags, like [<Tags.ITEM: 'item'>, <Tags.ID: 'id'>].\n",
-      "  warnings.warn(\n",
-      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
-      "  warnings.warn(\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "WARNING:tensorflow:No training configuration found in save file, so the model was *not* compiled. Compile it manually.\n"
-     ]
-    }
-   ],
-   "source": [
-    "from merlin.systems.dag.ensemble import Ensemble\n",
-    "\n",
-    "ensemble = Ensemble(serving_operators, train.schema)\n",
-    "ens_conf, node_confs = ensemble.export(\"/workspace/models_for_benchmarking\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 16,
-   "id": "8d390999",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "name: \"0_predicttensorflowtriton\"\r\n",
-      "platform: \"tensorflow_savedmodel\"\r\n",
-      "input {\r\n",
-      "  name: \"sess_pid_seq\"\r\n",
-      "  data_type: TYPE_INT32\r\n",
-      "  dims: -1\r\n",
-      "  dims: 1\r\n",
-      "}\r\n",
-      "input {\r\n",
-      "  name: \"sess_pid_seq_1\"\r\n",
-      "  data_type: TYPE_INT32\r\n",
-      "  dims: -1\r\n",
-      "  dims: 1\r\n",
-      "}\r\n",
-      "output {\r\n",
-      "  name: \"sess_pid_seq/categorical_output\"\r\n",
-      "  data_type: TYPE_FP32\r\n",
-      "  dims: -1\r\n",
-      "  dims: 390001\r\n",
-      "}\r\n",
-      "parameters {\r\n",
-      "  key: \"TF_GRAPH_TAG\"\r\n",
-      "  value {\r\n",
-      "    string_value: \"serve\"\r\n",
-      "  }\r\n",
-      "}\r\n",
-      "parameters {\r\n",
-      "  key: \"TF_SIGNATURE_DEF\"\r\n",
-      "  value {\r\n",
-      "    string_value: \"serving_default\"\r\n",
-      "  }\r\n",
-      "}\r\n",
-      "backend: \"tensorflow\"\r\n"
-     ]
-    }
-   ],
-   "source": [
-    "cat /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 18,
-   "id": "f7fe741c",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Overwriting /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt\n"
-     ]
-    }
-   ],
-   "source": [
-    "%%writefile /workspace/models_for_benchmarking/0_predicttensorflowtriton/config.pbtxt\n",
-    "\n",
-    "name: \"0_predicttensorflowtriton\"\n",
-    "platform: \"tensorflow_savedmodel\"\n",
-    "input {\n",
-    "  name: \"sess_pid_seq\"\n",
-    "  data_type: TYPE_INT32\n",
-    "  dims: -1\n",
-    "  dims: 1\n",
-    "}\n",
-    "input {\n",
-    "  name: \"sess_pid_seq_1\"\n",
-    "  data_type: TYPE_INT32\n",
-    "  dims: -1\n",
-    "  dims: 1\n",
-    "}\n",
-    "output {\n",
-    "  name: \"sess_pid_seq/categorical_output\"\n",
-    "  data_type: TYPE_FP32\n",
-    "  dims: -1\n",
-    "  dims: 390001\n",
-    "}\n",
-    "parameters {\n",
-    "  key: \"TF_GRAPH_TAG\"\n",
-    "  value {\n",
-    "    string_value: \"serve\"\n",
-    "  }\n",
-    "}\n",
-    "parameters {\n",
-    "  key: \"TF_SIGNATURE_DEF\"\n",
-    "  value {\n",
-    "    string_value: \"serving_default\"\n",
-    "  }\n",
-    "}\n",
-    "backend: \"tensorflow\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 17,
-   "id": "9cfe8bca",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "name: \"executor_model\"\r\n",
-      "platform: \"merlin_executor\"\r\n",
-      "input {\r\n",
-      "  name: \"sess_pid_seq__values\"\r\n",
-      "  data_type: TYPE_INT64\r\n",
-      "  dims: -1\r\n",
-      "  dims: -1\r\n",
-      "}\r\n",
-      "input {\r\n",
-      "  name: \"sess_pid_seq__lengths\"\r\n",
-      "  data_type: TYPE_INT32\r\n",
-      "  dims: -1\r\n",
-      "  dims: -1\r\n",
-      "}\r\n",
-      "output {\r\n",
-      "  name: \"sess_pid_seq/categorical_output\"\r\n",
-      "  data_type: TYPE_FP32\r\n",
-      "  dims: -1\r\n",
-      "  dims: 390001\r\n",
-      "}\r\n",
-      "backend: \"python\"\r\n"
-     ]
-    }
-   ],
-   "source": [
-    "cat /workspace/models_for_benchmarking/executor_model/config.pbtxt"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 19,
-   "id": "a659255d",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Overwriting /workspace/models_for_benchmarking/executor_model/config.pbtxt\n"
-     ]
-    }
-   ],
-   "source": [
-    "%%writefile /workspace/models_for_benchmarking/executor_model/config.pbtxt\n",
-    "\n",
-    "name: \"executor_model\"\n",
-    "platform: \"merlin_executor\"\n",
-    "input {\n",
-    "  name: \"sess_pid_seq__values\"\n",
-    "  data_type: TYPE_INT64\n",
-    "  dims: -1\n",
-    "  dims: -1\n",
-    "}\n",
-    "input {\n",
-    "  name: \"sess_pid_seq__nnzs\"\n",
-    "  data_type: TYPE_INT64\n",
-    "  dims: -1\n",
-    "  dims: -1\n",
-    "}\n",
-    "output {\n",
-    "  name: \"sess_pid_seq/categorical_output\"\n",
-    "  data_type: TYPE_FP32\n",
-    "  dims: -1\n",
-    "  dims: 390001\n",
-    "}\n",
-    "backend: \"python\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 21,
-   "id": "ddf2dc55",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "# Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.\r\n",
-      "#\r\n",
-      "# Redistribution and use in source and binary forms, with or without\r\n",
-      "# modification, are permitted provided that the following conditions\r\n",
-      "# are met:\r\n",
-      "#  * Redistributions of source code must retain the above copyright\r\n",
-      "#    notice, this list of conditions and the following disclaimer.\r\n",
-      "#  * Redistributions in binary form must reproduce the above copyright\r\n",
-      "#    notice, this list of conditions and the following disclaimer in the\r\n",
-      "#    documentation and/or other materials provided with the distribution.\r\n",
-      "#  * Neither the name of NVIDIA CORPORATION nor the names of its\r\n",
-      "#    contributors may be used to endorse or promote products derived\r\n",
-      "#    from this software without specific prior written permission.\r\n",
-      "#\r\n",
-      "# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS ``AS IS'' AND ANY\r\n",
-      "# EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE\r\n",
-      "# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR\r\n",
-      "# PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE COPYRIGHT OWNER OR\r\n",
-      "# CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,\r\n",
-      "# EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,\r\n",
-      "# PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR\r\n",
-      "# PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY\r\n",
-      "# OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT\r\n",
-      "# (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE\r\n",
-      "# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\r\n",
-      "import pathlib\r\n",
-      "from pathlib import Path\r\n",
-      "\r\n",
-      "from merlin.dag import postorder_iter_nodes\r\n",
-      "from merlin.systems.dag import Ensemble\r\n",
-      "from merlin.systems.dag.runtimes.triton import TritonExecutorRuntime\r\n",
-      "from merlin.systems.triton.conversions import (\r\n",
-      "    dict_array_to_triton_response,\r\n",
-      "    triton_request_to_dict_array,\r\n",
-      ")\r\n",
-      "from merlin.systems.triton.utils import triton_error_handling, triton_multi_request\r\n",
-      "\r\n",
-      "\r\n",
-      "class TritonPythonModel:\r\n",
-      "    \"\"\"Model for Triton Python Backend.\r\n",
-      "\r\n",
-      "    Every Python model must have \"TritonPythonModel\" as the class name\r\n",
-      "    \"\"\"\r\n",
-      "\r\n",
-      "    def initialize(self, args):\r\n",
-      "        \"\"\"Called only once when the model is being loaded. Allowing\r\n",
-      "        the model to initialize any state associated with this model.\r\n",
-      "\r\n",
-      "        Parameters\r\n",
-      "        ----------\r\n",
-      "        args : dict\r\n",
-      "          Both keys and values are strings. The dictionary keys and values are:\r\n",
-      "          * model_config: A JSON string containing the model configuration\r\n",
-      "          * model_instance_kind: A string containing model instance kind\r\n",
-      "          * model_instance_device_id: A string containing model instance device ID\r\n",
-      "          * model_repository: Model repository path\r\n",
-      "          * model_version: Model version\r\n",
-      "          * model_name: Model name\r\n",
-      "        \"\"\"\r\n",
-      "        # Arg parsing\r\n",
-      "        model_repo = args[\"model_repository\"]\r\n",
-      "        repository_path = _parse_model_repository(model_repo)\r\n",
-      "\r\n",
-      "        ensemble_path = (\r\n",
-      "            Path(repository_path) / args[\"model_name\"] / str(args[\"model_version\"]) / \"ensemble\"\r\n",
-      "        )\r\n",
-      "\r\n",
-      "        self.ensemble = Ensemble.load(str(ensemble_path))\r\n",
-      "\r\n",
-      "        for node in list(postorder_iter_nodes(self.ensemble.graph.output_node)):\r\n",
-      "            if hasattr(node.op, \"load_artifacts\"):\r\n",
-      "                node.op.load_artifacts(str(ensemble_path))\r\n",
-      "\r\n",
-      "    @triton_multi_request\r\n",
-      "    @triton_error_handling\r\n",
-      "    def execute(self, request):\r\n",
-      "        \"\"\"Receives a list of pb_utils.InferenceRequest as the only argument. This\r\n",
-      "        function is called when an inference is requested for this model. Depending on the\r\n",
-      "        batching configuration (e.g. Dynamic Batching) used, `requests` may contain\r\n",
-      "        multiple requests. Every Python model, must create one pb_utils.InferenceResponse\r\n",
-      "        for every pb_utils.InferenceRequest in `requests`. If there is an error, you can\r\n",
-      "        set the error argument when creating a pb_utils.InferenceResponse.\r\n",
-      "\r\n",
-      "        Parameters\r\n",
-      "        ----------\r\n",
-      "        requests : list\r\n",
-      "          A list of pb_utils.InferenceRequest\r\n",
-      "\r\n",
-      "        Returns\r\n",
-      "        -------\r\n",
-      "        list\r\n",
-      "          A list of pb_utils.InferenceResponse. The length of this list must\r\n",
-      "          be the same as `requests`\r\n",
-      "        \"\"\"\r\n",
-      "        inputs = triton_request_to_dict_array(request, self.ensemble.input_schema.column_names)\r\n",
-      "        outputs = self.ensemble.transform(inputs, runtime=TritonExecutorRuntime())\r\n",
-      "        return dict_array_to_triton_response(outputs)\r\n",
-      "\r\n",
-      "\r\n",
-      "def _parse_model_repository(model_repository: str) -> str:\r\n",
-      "    \"\"\"\r\n",
-      "    Extract the model repository path from the model_repository value\r\n",
-      "    passed to the TritonPythonModel initialize method.\r\n",
-      "    \"\"\"\r\n",
-      "    # Handle bug in Tritonserver 22.06\r\n",
-      "    # model_repository argument became path to model.py\r\n",
-      "    # instead of path to model directory within the model repository\r\n",
-      "    if model_repository.endswith(\".py\"):\r\n",
-      "        return str(pathlib.Path(model_repository).parent.parent.parent)\r\n",
-      "    else:\r\n",
-      "        return str(pathlib.Path(model_repository).parent)\r\n"
-     ]
-    }
-   ],
-   "source": [
-    "cat /workspace/models_for_benchmarking/executor_model/1/model.py"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 26,
-   "id": "3d21ce62",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "{\"versions\": {\"python\": \"3.8.10 (default, Nov 14 2022, 12:59:47) \\n[GCC 9.4.0]\"}, \"generated_timestamp\": 1679017581}"
-     ]
-    }
-   ],
-   "source": [
-    "cat /workspace/models_for_benchmarking/executor_model/1/ensemble/metadata.json"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "7998b835",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# %%writefile /workspace/models_for_benchmarking/t4r_pytorch_pt/config.pbtxt\n",
-    "\n",
-    "# name: \"t4r_pytorch_pt\"\n",
-    "# input {\n",
-    "#   name: \"sess_pid_seq__values\"\n",
-    "#   data_type: TYPE_INT64\n",
-    "#   dims: -1\n",
-    "#   dims: 1\n",
-    "# }\n",
-    "# input {\n",
-    "#   name: \"sess_pid_seq__nnzs\"\n",
-    "#   data_type: TYPE_INT64\n",
-    "#   dims: -1\n",
-    "#   dims: 1\n",
-    "# }\n",
-    "# output {\n",
-    "#   name: \"output\"\n",
-    "#   data_type: TYPE_FP32\n",
-    "#   dims: -1\n",
-    "#   dims: 20\n",
-    "# }\n",
-    "# backend: \"python\""
-   ]
   }
  ],
  "metadata": {

From eae1088f16c85f7c509f36f3f386957156e363bf Mon Sep 17 00:00:00 2001
From: EC2 Default User <ec2-user@ip-172-31-15-230.us-west-2.compute.internal>
Date: Tue, 9 May 2023 10:37:36 +0000
Subject: [PATCH 15/15] update

---
 ...el_for_benchmarking-inference-on-CPU.ipynb | 12592 ++++++++++++++++
 ...nd_save_model_for_benchmarking_works.ipynb |  1492 ++
 2 files changed, 14084 insertions(+)
 create mode 100644 T4Rec_repro/train_and_save_model_for_benchmarking-inference-on-CPU.ipynb
 create mode 100644 T4Rec_repro/train_and_save_model_for_benchmarking_works.ipynb

diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking-inference-on-CPU.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking-inference-on-CPU.ipynb
new file mode 100644
index 0000000000..68e207b4aa
--- /dev/null
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking-inference-on-CPU.ipynb
@@ -0,0 +1,12592 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "026bd245",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      "   9d9b5c6a..c5c9bc25 release-23.04       -> origin/release-23.04\n",
+      " * [new branch]      feature/merlin-array-dispatch -> origin/feature/merlin-array-dispatch\n",
+      " * [new branch]      fix-repartition     -> origin/fix-repartition\n",
+      " * [new branch]      fix-with-properties -> origin/fix-with-properties\n",
+      " * [new branch]      gh-pages            -> origin/gh-pages\n",
+      " * [new branch]      laiacano/docs-on-pr -> origin/laiacano/docs-on-pr\n",
+      " * [new branch]      main                -> origin/main\n",
+      " * [new branch]      release-22.10       -> origin/release-22.10\n",
+      " * [new branch]      release-22.11       -> origin/release-22.11\n",
+      " * [new branch]      release-22.12       -> origin/release-22.12\n",
+      " * [new branch]      release-23.02       -> origin/release-23.02\n",
+      " * [new branch]      revert-163-refactor/dictarray-columns -> origin/revert-163-refactor/dictarray-columns\n",
+      " * [new branch]      stable              -> origin/stable\n",
+      " * [new branch]      tags-intersection   -> origin/tags-intersection\n",
+      " * [new branch]      v0.2.0-docs         -> origin/v0.2.0-docs\n",
+      " * [new tag]         v0.10.0             -> v0.10.0\n",
+      " * [new tag]         v0.8.0              -> v0.8.0\n",
+      " * [new tag]         v0.9.0              -> v0.9.0\n",
+      " * [new tag]         v23.02.01           -> v23.02.01\n",
+      " * [new tag]           v0.1.0              -> v0.1.0\n",
+      " * [new tag]           v0.1.1              -> v0.1.1\n",
+      " * [new tag]           v0.2.0              -> v0.2.0\n",
+      " * [new tag]           v0.3.0              -> v0.3.0\n",
+      " * [new tag]           v0.4.0              -> v0.4.0\n",
+      " * [new tag]           v0.5.0              -> v0.5.0\n",
+      " * [new tag]           v0.6.0              -> v0.6.0\n",
+      " * [new tag]           v0.7.0              -> v0.7.0\n",
+      " * [new tag]           v23.02.00           -> v23.02.00\n",
+      " * [new tag]           v23.05.dev0         -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-23.5.dev0+21.ga0bcd30f-py3-none-any.whl size=161483 sha256=ec8d33030b56d7a0b9df3f50950a4131456ba0916c4e44fa090f94e8f0cdd2af\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-x7t5590g/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n",
+      "Installing collected packages: merlin-core\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 23.4.0\n",
+      "    Uninstalling merlin-core-23.4.0:\n",
+      "      Successfully uninstalled merlin-core-23.4.0\n",
+      "Successfully installed merlin-core-23.5.dev0+21.ga0bcd30f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * [new branch]      chore/comprehensive-shapes -> origin/chore/comprehensive-shapes\n",
+      " * [new branch]      chore/packages-action  -> origin/chore/packages-action\n",
+      " * [new branch]      collabify_examples     -> origin/collabify_examples\n",
+      " * [new branch]      docs-add-seo           -> origin/docs-add-seo\n",
+      " * [new branch]      docs-calver-banner     -> origin/docs-calver-banner\n",
+      " * [new branch]      ds-api                 -> origin/ds-api\n",
+      " * [new branch]      feature/embedding-tags -> origin/feature/embedding-tags\n",
+      " * [new branch]      fix-sparse-logic       -> origin/fix-sparse-logic\n",
+      " * [new branch]      fix/tf-batch-size-warning -> origin/fix/tf-batch-size-warning\n",
+      " * [new branch]      gh-pages               -> origin/gh-pages\n",
+      " * [new branch]      gha-test               -> origin/gha-test\n",
+      " * [new branch]      laiacano/docs-pr       -> origin/laiacano/docs-pr\n",
+      " * [new branch]      main                   -> origin/main\n",
+      " * [new branch]      no_gpu                 -> origin/no_gpu\n",
+      " * [new branch]      release-22.11          -> origin/release-22.11\n",
+      " * [new branch]      release-22.12          -> origin/release-22.12\n",
+      " * [new branch]      release-23.02          -> origin/release-23.02\n",
+      " * [new branch]      stable                 -> origin/stable\n",
+      " * [new branch]      update_github_actions  -> origin/update_github_actions\n",
+      " * [new tag]         v0.0.3                 -> v0.0.3\n",
+      " * [new tag]         v0.0.4                 -> v0.0.4\n",
+      " * [new tag]         v23.02.01              -> v23.02.01\n",
+      " * [new tag]         v0.0.1                 -> v0.0.1\n",
+      " * [new tag]         v0.0.2                 -> v0.0.2\n",
+      " * [new tag]         v23.02.00              -> v23.02.00\n",
+      " * [new tag]         v23.05.dev0            -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /dataloader\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.5.dev0+8.gd9e97b4-py3-none-any.whl size=34916 sha256=4c5a734dc23827efb928b5c29de6eb394b7f6e92940e054702433ea07a229d68\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-gz8k5ff8/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n",
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 23.4.0\n",
+      "    Uninstalling merlin-dataloader-23.4.0:\n",
+      "      Successfully uninstalled merlin-dataloader-23.4.0\n",
+      "Successfully installed merlin-dataloader-23.5.dev0+8.gd9e97b4\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/NVTabular\n",
+      "   f8f484e5..90489194 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      1077-implement          -> origin/1077-implement\n",
+      " * [new branch]      21.09/column-tagging    -> origin/21.09/column-tagging\n",
+      " * [new branch]      21.09/dataset-collection -> origin/21.09/dataset-collection\n",
+      " * [new branch]      21.09/operator-block    -> origin/21.09/operator-block\n",
+      " * [new branch]      21.09/schema            -> origin/21.09/schema\n",
+      " * [new branch]      add_sum_to_supported_aggregations -> origin/add_sum_to_supported_aggregations\n",
+      " * [new branch]      aiobotocore_v2          -> origin/aiobotocore_v2\n",
+      " * [new branch]      alexanderronquillo-patch-1 -> origin/alexanderronquillo-patch-1\n",
+      " * [new branch]      automate_pypi           -> origin/automate_pypi\n",
+      " * [new branch]      bench-pynvml-fix        -> origin/bench-pynvml-fix\n",
+      " * [new branch]      branch-0.6              -> origin/branch-0.6\n",
+      " * [new branch]      bschifferer-remove_examples_1 -> origin/bschifferer-remove_examples_1\n",
+      " * [new branch]      categorify-inference-int16 -> origin/categorify-inference-int16\n",
+      " * [new branch]      columns_with_aggs_in_names -> origin/columns_with_aggs_in_names\n",
+      " * [new branch]      conda-package-python-versions -> origin/conda-package-python-versions\n",
+      " * [new branch]      conda_gh_action         -> origin/conda_gh_action\n",
+      " * [new branch]      dataloader-remove-sparse -> origin/dataloader-remove-sparse\n",
+      " * [new branch]      dataloader_doc_fix      -> origin/dataloader_doc_fix\n",
+      " * [new branch]      disable-package-build-on-pull-requests -> origin/disable-package-build-on-pull-requests\n",
+      " * [new branch]      dont_install_tests      -> origin/dont_install_tests\n",
+      " * [new branch]      drop_low_cardinality    -> origin/drop_low_cardinality\n",
+      " * [new branch]      fix-docs-tox-env        -> origin/fix-docs-tox-env\n",
+      " * [new branch]      fix-wf-file             -> origin/fix-wf-file\n",
+      " * [new branch]      fix/inference-deprecation -> origin/fix/inference-deprecation\n",
+      " * [new branch]      fix_data_path           -> origin/fix_data_path\n",
+      " * [new branch]      fix_hugectr_nb          -> origin/fix_hugectr_nb\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      groupby_without_groupby_col_in_col_selector -> origin/groupby_without_groupby_col_in_col_selector\n",
+      " * [new branch]      hugectr-newapi          -> origin/hugectr-newapi\n",
+      " * [new branch]      laiacano/check-list-from-schema -> origin/laiacano/check-list-from-schema\n",
+      " * [new branch]      laiacano/workflow-subgraph -> origin/laiacano/workflow-subgraph\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      na_sentinel             -> origin/na_sentinel\n",
+      " * [new branch]      notebooks-21.10         -> origin/notebooks-21.10\n",
+      " * [new branch]      nvt-1195                -> origin/nvt-1195\n",
+      " * [new branch]      nvtabular_examples      -> origin/nvtabular_examples\n",
+      " * [new branch]      packages-workflow-split -> origin/packages-workflow-split\n",
+      " * [new branch]      readme_updates          -> origin/readme_updates\n",
+      " * [new branch]      refactor/fit-schema     -> origin/refactor/fit-schema\n",
+      " * [new branch]      refactor/input-column-selection -> origin/refactor/input-column-selection\n",
+      " * [new branch]      refactor/postpone-schema-binding -> origin/refactor/postpone-schema-binding\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      remove_poetry           -> origin/remove_poetry\n",
+      " * [new branch]      remove_release_notes    -> origin/remove_release_notes\n",
+      " * [new branch]      repeat-ops              -> origin/repeat-ops\n",
+      " * [new branch]      rjzamora-simplify-criteo -> origin/rjzamora-simplify-criteo\n",
+      " * [new branch]      rnyak-patch-1           -> origin/rnyak-patch-1\n",
+      " * [new branch]      romeyn/input-api        -> origin/romeyn/input-api\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      test-column-similarity-dataset-cpu-default-none -> origin/test-column-similarity-dataset-cpu-default-none\n",
+      " * [new branch]      test-torch-dataloader-dataset-cpu-default-none -> origin/test-torch-dataloader-dataset-cpu-default-none\n",
+      " * [new branch]      torch_catch             -> origin/torch_catch\n",
+      " * [new branch]      update-dask-reqs        -> origin/update-dask-reqs\n",
+      " * [new branch]      update_merlin_core      -> origin/update_merlin_core\n",
+      " * [new branch]      update_requirements     -> origin/update_requirements\n",
+      " * [new branch]      v0.10.0-docs            -> origin/v0.10.0-docs\n",
+      " * [new branch]      v0.11.0-docs            -> origin/v0.11.0-docs\n",
+      " * [new branch]      v0.7.1-docs             -> origin/v0.7.1-docs\n",
+      " * [new branch]      v0.8.0-docs             -> origin/v0.8.0-docs\n",
+      " * [new branch]      v0.9.0-docs             -> origin/v0.9.0-docs\n",
+      " * [new branch]      v1.0.0-docs             -> origin/v1.0.0-docs\n",
+      " * [new tag]         v0.6.1                  -> v0.6.1\n",
+      " * [new tag]         v1.6.0                  -> v1.6.0\n",
+      " * [new tag]         v1.7.0                  -> v1.7.0\n",
+      " * [new tag]         v1.8.1                  -> v1.8.1\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.10.0                 -> v0.10.0\n",
+      " * [new tag]           v0.11.0                 -> v0.11.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n",
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.5.1                  -> v0.5.1\n",
+      " * [new tag]           v0.5.2                  -> v0.5.2\n",
+      " * [new tag]           v0.5.3                  -> v0.5.3\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.7.1                  -> v0.7.1\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v0.9.0                  -> v0.9.0\n",
+      " * [new tag]           v1.0.0                  -> v1.0.0\n",
+      " * [new tag]           v1.1.0                  -> v1.1.0\n",
+      " * [new tag]           v1.1.1                  -> v1.1.1\n",
+      " * [new tag]           v1.2.0                  -> v1.2.0\n",
+      " * [new tag]           v1.2.1                  -> v1.2.1\n",
+      " * [new tag]           v1.2.2                  -> v1.2.2\n",
+      " * [new tag]           v1.3.0                  -> v1.3.0\n",
+      " * [new tag]           v1.3.1                  -> v1.3.1\n",
+      " * [new tag]           v1.3.2                  -> v1.3.2\n",
+      " * [new tag]           v1.3.3                  -> v1.3.3\n",
+      " * [new tag]           v1.4.0                  -> v1.4.0\n",
+      " * [new tag]           v1.5.0                  -> v1.5.0\n",
+      " * [new tag]           v1.8.0                  -> v1.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /nvtabular\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: nvtabular\n",
+      "  Building wheel for nvtabular (PEP 517): started\n",
+      "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
+      "  Created wheel for nvtabular: filename=nvtabular-23.5.dev0+7.g67136eba-cp38-cp38-linux_x86_64.whl size=259925 sha256=daaa86cb4ab2df4b9c6a04a6ddea5e6a4ac5b14b901740152ef71cb3b53171db\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-11i49cvh/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "Successfully built nvtabular\n",
+      "Installing collected packages: nvtabular\n",
+      "  Attempting uninstall: nvtabular\n",
+      "    Found existing installation: nvtabular 23.4.0\n",
+      "    Uninstalling nvtabular-23.4.0:\n",
+      "      Successfully uninstalled nvtabular-23.4.0\n",
+      "Successfully installed nvtabular-23.5.dev0+7.g67136eba\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      "   a44eced6..56c7d6a4 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      Mai                     -> origin/Mai\n",
+      " * [new branch]      add_category_encoding_test -> origin/add_category_encoding_test\n",
+      " * [new branch]      add_lightfm_and_explicit_training_example -> origin/add_lightfm_and_explicit_training_example\n",
+      " * [new branch]      add_logo_tracking_to_07 -> origin/add_logo_tracking_to_07\n",
+      " * [new branch]      add_notebooks_test      -> origin/add_notebooks_test\n",
+      " * [new branch]      advanced_example        -> origin/advanced_example\n",
+      " * [new branch]      asvdb_metric_tracking   -> origin/asvdb_metric_tracking\n",
+      " * [new branch]      batched-dataset/schema  -> origin/batched-dataset/schema\n",
+      " * [new branch]      benchmark-session-based -> origin/benchmark-session-based\n",
+      " * [new branch]      block-context           -> origin/block-context\n",
+      " * [new branch]      blossom_report_skipped  -> origin/blossom_report_skipped\n",
+      " * [new branch]      break_ties              -> origin/break_ties\n",
+      " * [new branch]      bs_unittest_examples_v2 -> origin/bs_unittest_examples_v2\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      change_two_tower_api_test -> origin/change_two_tower_api_test\n",
+      " * [new branch]      ci/backend-tests        -> origin/ci/backend-tests\n",
+      " * [new branch]      ci/example-linting      -> origin/ci/example-linting\n",
+      " * [new branch]      ci/horovod              -> origin/ci/horovod\n",
+      " * [new branch]      cicd                    -> origin/cicd\n",
+      " * [new branch]      codespell_fix           -> origin/codespell_fix\n",
+      " * [new branch]      compare_ranking_models  -> origin/compare_ranking_models\n",
+      " * [new branch]      conda_recipe            -> origin/conda_recipe\n",
+      " * [new branch]      consolidate-abstractions -> origin/consolidate-abstractions\n",
+      " * [new branch]      dataloader_tag_fix      -> origin/dataloader_tag_fix\n",
+      " * [new branch]      dcn_tests               -> origin/dcn_tests\n",
+      " * [new branch]      deps/merlin-core-commit -> origin/deps/merlin-core-commit\n",
+      " * [new branch]      docs-strings            -> origin/docs-strings\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      emb_export_fix          -> origin/emb_export_fix\n",
+      " * [new branch]      evaluate_fixes          -> origin/evaluate_fixes\n",
+      " * [new branch]      examples/unit-tests     -> origin/examples/unit-tests\n",
+      " * [new branch]      examples/update_link    -> origin/examples/update_link\n",
+      " * [new branch]      examples_fixes          -> origin/examples_fixes\n",
+      " * [new branch]      fea-sok-integration-wj  -> origin/fea-sok-integration-wj\n",
+      " * [new branch]      fea-sok-load-dump       -> origin/fea-sok-load-dump\n",
+      " * [new branch]      feature/multi-hot-columns -> origin/feature/multi-hot-columns\n",
+      " * [new branch]      feature/retrieval-dnn   -> origin/feature/retrieval-dnn\n",
+      " * [new branch]      fix-contrastive-predictions -> origin/fix-contrastive-predictions\n",
+      " * [new branch]      fix/aliccp_workflow     -> origin/fix/aliccp_workflow\n",
+      " * [new branch]      fix/batch_predict       -> origin/fix/batch_predict\n",
+      " * [new branch]      fix/example-tests       -> origin/fix/example-tests\n",
+      " * [new branch]      fix/python-version      -> origin/fix/python-version\n",
+      " * [new branch]      fix/shared_embeddings   -> origin/fix/shared_embeddings\n",
+      " * [new branch]      fix_aliccp_schema       -> origin/fix_aliccp_schema\n",
+      " * [new branch]      fix_cated_ohe           -> origin/fix_cated_ohe\n",
+      " * [new branch]      fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
+      " * [new branch]      fix_lightfm_evaluate    -> origin/fix_lightfm_evaluate\n",
+      " * [new branch]      fix_masking             -> origin/fix_masking\n",
+      " * [new branch]      fix_mtl_metrics         -> origin/fix_mtl_metrics\n",
+      " * [new branch]      fix_notebooks           -> origin/fix_notebooks\n",
+      " * [new branch]      fix_regression          -> origin/fix_regression\n",
+      " * [new branch]      fix_retrieval           -> origin/fix_retrieval\n",
+      " * [new branch]      fix_retrieval_eval_loss -> origin/fix_retrieval_eval_loss\n",
+      " * [new branch]      fix_sampled_softmax_evaluation -> origin/fix_sampled_softmax_evaluation\n",
+      " * [new branch]      fix_test_07             -> origin/fix_test_07\n",
+      " * [new branch]      getting_started_exp     -> origin/getting_started_exp\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      hashed_cross_test       -> origin/hashed_cross_test\n",
+      " * [new branch]      implement_review_comments -> origin/implement_review_comments\n",
+      " * [new branch]      in-bath-sampling-bug    -> origin/in-bath-sampling-bug\n",
+      " * [new branch]      infer_embeddings        -> origin/infer_embeddings\n",
+      " * [new branch]      inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      " * [new branch]      laiacano/concurrency    -> origin/laiacano/concurrency\n",
+      " * [new branch]      laiacano/tox            -> origin/laiacano/tox\n",
+      " * [new branch]      layer_freezing_test     -> origin/layer_freezing_test\n",
+      " * [new branch]      load_retrieval_model    -> origin/load_retrieval_model\n",
+      " * [new branch]      logit_correction_nol2_temp -> origin/logit_correction_nol2_temp\n",
+      " * [new branch]      losses                  -> origin/losses\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_transforms      -> origin/masking_transforms\n",
+      " * [new branch]      merlin-standard-lib     -> origin/merlin-standard-lib\n",
+      " * [new branch]      metrics_opt             -> origin/metrics_opt\n",
+      " * [new branch]      metrics_opt2            -> origin/metrics_opt2\n",
+      " * [new branch]      mikemckiernan-patch-1   -> origin/mikemckiernan-patch-1\n",
+      " * [new branch]      mlm                     -> origin/mlm\n",
+      " * [new branch]      mlm_alt                 -> origin/mlm_alt\n",
+      " * [new branch]      mlp_selu                -> origin/mlp_selu\n",
+      " * [new branch]      mrr_fix                 -> origin/mrr_fix\n",
+      " * [new branch]      mtl_example             -> origin/mtl_example\n",
+      " * [new branch]      mtl_loss                -> origin/mtl_loss\n",
+      " * [new branch]      mtl_models              -> origin/mtl_models\n",
+      " * [new branch]      mtl_regularization      -> origin/mtl_regularization\n",
+      " * [new branch]      multi_optimizer_example -> origin/multi_optimizer_example\n",
+      " * [new branch]      neg_sampling            -> origin/neg_sampling\n",
+      " * [new branch]      poc                     -> origin/poc\n",
+      " * [new branch]      pretrained_init         -> origin/pretrained_init\n",
+      " * [new branch]      radekosmulski-patch-2   -> origin/radekosmulski-patch-2\n",
+      " * [new branch]      ragged_embeddings       -> origin/ragged_embeddings\n",
+      " * [new branch]      ranking_models_inputs   -> origin/ranking_models_inputs\n",
+      " * [new branch]      ranking_tests           -> origin/ranking_tests\n",
+      " * [new branch]      ranking_tests3          -> origin/ranking_tests3\n",
+      " * [new branch]      readme_bash             -> origin/readme_bash\n",
+      " * [new branch]      refactor-docs-reqs      -> origin/refactor-docs-reqs\n",
+      " * [new branch]      refactor/docs-reqs      -> origin/refactor/docs-reqs\n",
+      " * [new branch]      refactor/embedding-layers -> origin/refactor/embedding-layers\n",
+      " * [new branch]      refactor/youtube-retrieval -> origin/refactor/youtube-retrieval\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      remove/masking          -> origin/remove/masking\n",
+      " * [new branch]      reset-metrics           -> origin/reset-metrics\n",
+      " * [new branch]      retrieval-sample-weights -> origin/retrieval-sample-weights\n",
+      " * [new branch]      retrieval_debug         -> origin/retrieval_debug\n",
+      " * [new branch]      retrieval_debug_no_l2norm -> origin/retrieval_debug_no_l2norm\n",
+      " * [new branch]      retrieval_debug_scores_temp -> origin/retrieval_debug_scores_temp\n",
+      " * [new branch]      retrieval_eval_fix      -> origin/retrieval_eval_fix\n",
+      " * [new branch]      retrieval_fixes         -> origin/retrieval_fixes\n",
+      " * [new branch]      retrieval_fixes_2       -> origin/retrieval_fixes_2\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new branch]      retrieval_integration_tests -> origin/retrieval_integration_tests\n",
+      " * [new branch]      revert-813-laiacano/tox-and-tmpdir -> origin/revert-813-laiacano/tox-and-tmpdir\n",
+      " * [new branch]      romeyn/block-api        -> origin/romeyn/block-api\n",
+      " * [new branch]      romeyn/block-cleanup    -> origin/romeyn/block-cleanup\n",
+      " * [new branch]      romeyn/inputs           -> origin/romeyn/inputs\n",
+      " * [new branch]      sampling                -> origin/sampling\n",
+      " * [new branch]      select-by-tag           -> origin/select-by-tag\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      t4rec_use_case          -> origin/t4rec_use_case\n",
+      " * [new branch]      tf/add-bokeh-to-dev     -> origin/tf/add-bokeh-to-dev\n",
+      " * [new branch]      tf/base-model-test-graph-mode -> origin/tf/base-model-test-graph-mode\n",
+      " * [new branch]      tf/batch_predict_fix    -> origin/tf/batch_predict_fix\n",
+      " * [new branch]      tf/categorical-prediction -> origin/tf/categorical-prediction\n",
+      " * [new branch]      tf/categorical-prediction-2 -> origin/tf/categorical-prediction-2\n",
+      " * [new branch]      tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]      tf/combinators-base     -> origin/tf/combinators-base\n",
+      " * [new branch]      tf/cond                 -> origin/tf/cond\n",
+      " * [new branch]      tf/context-tensor       -> origin/tf/context-tensor\n",
+      " * [new branch]      tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]      tf/contrastive-prediction -> origin/tf/contrastive-prediction\n",
+      " * [new branch]      tf/core                 -> origin/tf/core\n",
+      " * [new branch]      tf/dataloader_changes   -> origin/tf/dataloader_changes\n",
+      " * [new branch]      tf/dep-prediction-tasks -> origin/tf/dep-prediction-tasks\n",
+      " * [new branch]      tf/dlrm_dropout_fix     -> origin/tf/dlrm_dropout_fix\n",
+      " * [new branch]      tf/dynamic-memory-growth -> origin/tf/dynamic-memory-growth\n",
+      " * [new branch]      tf/embedding-tables     -> origin/tf/embedding-tables\n",
+      " * [new branch]      tf/embeddings_regularization -> origin/tf/embeddings_regularization\n",
+      " * [new branch]      tf/evaluate_retrieval   -> origin/tf/evaluate_retrieval\n",
+      " * [new branch]      tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]      tf/fix_logq_correction  -> origin/tf/fix_logq_correction\n",
+      " * [new branch]      tf/fix_mlm_test         -> origin/tf/fix_mlm_test\n",
+      " * [new branch]      tf/fix_tag_item_id      -> origin/tf/fix_tag_item_id\n",
+      " * [new branch]      tf/fix_tests_shared_state -> origin/tf/fix_tests_shared_state\n",
+      " * [new branch]      tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]      tf/input-block          -> origin/tf/input-block\n",
+      " * [new branch]      tf/input-block-filter   -> origin/tf/input-block-filter\n",
+      " * [new branch]      tf/inputs-concat        -> origin/tf/inputs-concat\n",
+      " * [new branch]      tf/keras-embedding      -> origin/tf/keras-embedding\n",
+      " * [new branch]      tf/logit_correction     -> origin/tf/logit_correction\n",
+      " * [new branch]      tf/loglossmetric_callbacks -> origin/tf/loglossmetric_callbacks\n",
+      " * [new branch]      tf/logq_correction      -> origin/tf/logq_correction\n",
+      " * [new branch]      tf/loss_batch_metric    -> origin/tf/loss_batch_metric\n",
+      " * [new branch]      tf/map-values           -> origin/tf/map-values\n",
+      " * [new branch]      tf/masking_block        -> origin/tf/masking_block\n",
+      " * [new branch]      tf/mf-retrieval-model   -> origin/tf/mf-retrieval-model\n",
+      " * [new branch]      tf/mlm-schema           -> origin/tf/mlm-schema\n",
+      " * [new branch]      tf/model-tests          -> origin/tf/model-tests\n",
+      " * [new branch]      tf/model/sequential     -> origin/tf/model/sequential\n",
+      " * [new branch]      tf/move-core            -> origin/tf/move-core\n",
+      " * [new branch]      tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " * [new branch]      tf/multi_task_improv    -> origin/tf/multi_task_improv\n",
+      " * [new branch]      tf/ncf_model            -> origin/tf/ncf_model\n",
+      " * [new branch]      tf/output-block         -> origin/tf/output-block\n",
+      " * [new branch]      tf/pop_metrics          -> origin/tf/pop_metrics\n",
+      " * [new branch]      tf/prediction           -> origin/tf/prediction\n",
+      " * [new branch]      tf/prediction-block     -> origin/tf/prediction-block\n",
+      " * [new branch]      tf/pretrained_emb       -> origin/tf/pretrained_emb\n",
+      " * [new branch]      tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]      tf/pruning-parallel-block -> origin/tf/pruning-parallel-block\n",
+      " * [new branch]      tf/quick_start_ranking  -> origin/tf/quick_start_ranking\n",
+      " * [new branch]      tf/ragged-tensors       -> origin/tf/ragged-tensors\n",
+      " * [new branch]      tf/ranking_metrics_sort -> origin/tf/ranking_metrics_sort\n",
+      " * [new branch]      tf/refactor             -> origin/tf/refactor\n",
+      " * [new branch]      tf/retireval_eval       -> origin/tf/retireval_eval\n",
+      " * [new branch]      tf/retrieval-eval       -> origin/tf/retrieval-eval\n",
+      " * [new branch]      tf/retrieval-model-v2   -> origin/tf/retrieval-model-v2\n",
+      " * [new branch]      tf/retrieval-models     -> origin/tf/retrieval-models\n",
+      " * [new branch]      tf/sampling/items       -> origin/tf/sampling/items\n",
+      " * [new branch]      tf/save-regularizer     -> origin/tf/save-regularizer\n",
+      " * [new branch]      tf/target-propagation   -> origin/tf/target-propagation\n",
+      " * [new branch]      tf/targets              -> origin/tf/targets\n",
+      " * [new branch]      tf/tf-cont-list         -> origin/tf/tf-cont-list\n",
+      " * [new branch]      tf/topk_recommender     -> origin/tf/topk_recommender\n",
+      " * [new branch]      tf/tower-save           -> origin/tf/tower-save\n",
+      " * [new branch]      tf/train_metrics_steps_fix -> origin/tf/train_metrics_steps_fix\n",
+      " * [new branch]      tf/transformer-api      -> origin/tf/transformer-api\n",
+      " * [new branch]      tf/transformer-block    -> origin/tf/transformer-block\n",
+      " * [new branch]      tf/transformer_block    -> origin/tf/transformer_block\n",
+      " * [new branch]      tf/wide_and_deep        -> origin/tf/wide_and_deep\n",
+      " * [new branch]      tf/wrap-as-model        -> origin/tf/wrap-as-model\n",
+      " * [new branch]      tf/xlnet-bug            -> origin/tf/xlnet-bug\n",
+      " * [new branch]      torch/clean-up          -> origin/torch/clean-up\n",
+      " * [new branch]      torch/dev               -> origin/torch/dev\n",
+      " * [new branch]      torch/masking           -> origin/torch/masking\n",
+      " * [new branch]      torch/prototype         -> origin/torch/prototype\n",
+      " * [new branch]      torch/remove-t4r-code   -> origin/torch/remove-t4r-code\n",
+      " * [new branch]      tox_github_actions_fix  -> origin/tox_github_actions_fix\n",
+      " * [new branch]      transformer-api         -> origin/transformer-api\n",
+      " * [new branch]      two_tower_fixes         -> origin/two_tower_fixes\n",
+      " * [new branch]      update_07               -> origin/update_07\n",
+      " * [new branch]      update_advanced_notebook -> origin/update_advanced_notebook\n",
+      " * [new branch]      update_example_01       -> origin/update_example_01\n",
+      " * [new branch]      update_examples_with_tracking_logo -> origin/update_examples_with_tracking_logo\n",
+      " * [new branch]      v0.2.0-docs             -> origin/v0.2.0-docs\n",
+      " * [new branch]      v0.3.0-docs             -> origin/v0.3.0-docs\n",
+      " * [new branch]      validation_data_fix     -> origin/validation_data_fix\n",
+      " * [new branch]      validation_data_fix2    -> origin/validation_data_fix2\n",
+      " * [new branch]      wide_deep_example_test  -> origin/wide_deep_example_test\n",
+      " * [new branch]      wideanddeep_example     -> origin/wideanddeep_example\n",
+      " * [new branch]      xgboost/predict-without-target -> origin/xgboost/predict-without-target\n",
+      " * [new branch]      youtube_dnn_retrieval   -> origin/youtube_dnn_retrieval\n",
+      " * [new branch]      youtubednn_improv       -> origin/youtubednn_improv\n",
+      " * [new branch]      youtubednn_logq         -> origin/youtubednn_logq\n",
+      " * [new tag]         v0.10.0                 -> v0.10.0\n",
+      " * [new tag]         v0.11.0                 -> v0.11.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.5.dev0+12.gd8133b8f-py3-none-any.whl size=343289 sha256=09ff3fba62daf076895e75820e936c221b3bbfa0d3342f10ef3f5eb9c572a01b\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-ipciscb_/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 23.4.0\n",
+      "    Uninstalling merlin-models-23.4.0:\n",
+      "      Successfully uninstalled merlin-models-23.4.0\n",
+      "Successfully installed merlin-models-23.5.dev0+12.gd8133b8f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      "   fce949f..2516efb  release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      add_xgboost_serving_example -> origin/add_xgboost_serving_example\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      bschifferer-patch-2     -> origin/bschifferer-patch-2\n",
+      " * [new branch]      ci/cpu-action           -> origin/ci/cpu-action\n",
+      " * [new branch]      dataset-cpu-default-None -> origin/dataset-cpu-default-None\n",
+      " * [new branch]      docs-nightly-build      -> origin/docs-nightly-build\n",
+      " * [new branch]      docs-remove-deps        -> origin/docs-remove-deps\n",
+      " * [new branch]      docs-tox                -> origin/docs-tox\n",
+      " * [new branch]      docs/contributing       -> origin/docs/contributing\n",
+      " * [new branch]      docs/coverage-threshold -> origin/docs/coverage-threshold\n",
+      " * [new branch]      docs/docstring-coverage -> origin/docs/docstring-coverage\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      docs/issue-templates    -> origin/docs/issue-templates\n",
+      " * [new branch]      docs/readme             -> origin/docs/readme\n",
+      " * [new branch]      feast-errors            -> origin/feast-errors\n",
+      " * [new branch]      feature/pytorch         -> origin/feature/pytorch\n",
+      " * [new branch]      feature/t4r-serving     -> origin/feature/t4r-serving\n",
+      " * [new branch]      feature/torchscript     -> origin/feature/torchscript\n",
+      " * [new branch]      fix/dask-dist-deps      -> origin/fix/dask-dist-deps\n",
+      " * [new branch]      fix/faiss-types         -> origin/fix/faiss-types\n",
+      " * [new branch]      fix/multi-hot-dtypes    -> origin/fix/multi-hot-dtypes\n",
+      " * [new branch]      fix/multihot-schemas    -> origin/fix/multihot-schemas\n",
+      " * [new branch]      fix/pkg-build-lib       -> origin/fix/pkg-build-lib\n",
+      " * [new branch]      fix/pytest-feast        -> origin/fix/pytest-feast\n",
+      " * [new branch]      fix/skipped-tests       -> origin/fix/skipped-tests\n",
+      " * [new branch]      fix/tf-input-shapes     -> origin/fix/tf-input-shapes\n",
+      " * [new branch]      fix/torch-importorskip  -> origin/fix/torch-importorskip\n",
+      " * [new branch]      fix_model_outputnames   -> origin/fix_model_outputnames\n",
+      " * [new branch]      fix_nb                  -> origin/fix_nb\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      laiacano/slack-notify   -> origin/laiacano/slack-notify\n",
+      " * [new branch]      laiacano/transformer-import -> origin/laiacano/transformer-import\n",
+      " * [new branch]      laiacano/upgrade-feast  -> origin/laiacano/upgrade-feast\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      merlin_models_xgboost   -> origin/merlin_models_xgboost\n",
+      " * [new branch]      migration/from-nvt      -> origin/migration/from-nvt\n",
+      " * [new branch]      polish/remove-dtype-matching -> origin/polish/remove-dtype-matching\n",
+      " * [new branch]      radekosmulski-patch-1   -> origin/radekosmulski-patch-1\n",
+      " * [new branch]      radekosmulski-patch-1-1 -> origin/radekosmulski-patch-1-1\n",
+      " * [new branch]      refactor/dtypes         -> origin/refactor/dtypes\n",
+      " * [new branch]      refactor/organize-tests -> origin/refactor/organize-tests\n",
+      " * [new branch]      refactor/schema-validation-hook -> origin/refactor/schema-validation-hook\n",
+      " * [new branch]      refactor/virtual-dataframe -> origin/refactor/virtual-dataframe\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      run_triton_utils        -> origin/run_triton_utils\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      update-reqs             -> origin/update-reqs\n",
+      " * [new branch]      update/precommit-hooks  -> origin/update/precommit-hooks\n",
+      " * [new branch]      use_dataloader          -> origin/use_dataloader\n",
+      " * [new branch]      v0.0.1-docs             -> origin/v0.0.1-docs\n",
+      " * [new branch]      v0.1.0-docs             -> origin/v0.1.0-docs\n",
+      " * [new tag]         v0.7.0                  -> v0.7.0\n",
+      " * [new tag]         v0.8.0                  -> v0.8.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]         v0.0.1                  -> v0.0.1\n",
+      " * [new tag]         v0.1.0                  -> v0.1.0\n",
+      " * [new tag]         v0.2.0                  -> v0.2.0\n",
+      " * [new tag]         v0.3.0                  -> v0.3.0\n",
+      " * [new tag]         v0.4.0                  -> v0.4.0\n",
+      " * [new tag]         v0.5.0                  -> v0.5.0\n",
+      " * [new tag]         v0.6.0                  -> v0.6.0\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.5.dev0+8.g2b1b90b-py3-none-any.whl size=83188 sha256=4152a863cc43b7f51bf5ab1bd406890a32a4b33ad1b6ab5cebc4f00db54fb144\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-x197uh_u/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 23.4.0\n",
+      "    Uninstalling merlin-systems-23.4.0:\n",
+      "      Successfully uninstalled merlin-systems-23.4.0\n",
+      "Successfully installed merlin-systems-23.5.dev0+8.g2b1b90b\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Transformers4Rec\n",
+      "   4a9e7373..911355f4 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      DDP_fix                 -> origin/DDP_fix\n",
+      " * [new branch]      HF-update               -> origin/HF-update\n",
+      " * [new branch]      add_benchmarking_scripts -> origin/add_benchmarking_scripts\n",
+      " * [new branch]      add_topk_layer          -> origin/add_topk_layer\n",
+      " * [new branch]      albert17-check          -> origin/albert17-check\n",
+      " * [new branch]      batches                 -> origin/batches\n",
+      " * [new branch]      benfred/datasetschema   -> origin/benfred/datasetschema\n",
+      " * [new branch]      clean_rnn_block         -> origin/clean_rnn_block\n",
+      " * [new branch]      core-schema/deprecation-warning -> origin/core-schema/deprecation-warning\n",
+      " * [new branch]      core-schema/tabular-features -> origin/core-schema/tabular-features\n",
+      " * [new branch]      core-schema/trainer     -> origin/core-schema/trainer\n",
+      " * [new branch]      dataloader              -> origin/dataloader\n",
+      " * [new branch]      dataparallel_fix        -> origin/dataparallel_fix\n",
+      " * [new branch]      doc/supported_transformers -> origin/doc/supported_transformers\n",
+      " * [new branch]      doc_fix                 -> origin/doc_fix\n",
+      " * [new branch]      docs                    -> origin/docs\n",
+      " * [new branch]      etl-nvt                 -> origin/etl-nvt\n",
+      " * [new branch]      examples                -> origin/examples\n",
+      " * [new branch]      fix-data-repartition    -> origin/fix-data-repartition\n",
+      " * [new branch]      fix-failing-ci          -> origin/fix-failing-ci\n",
+      " * [new branch]      fix-inference           -> origin/fix-inference\n",
+      " * [new branch]      fix/transformers_config -> origin/fix/transformers_config\n",
+      " * [new branch]      fix_gettingstarted_nb   -> origin/fix_gettingstarted_nb\n",
+      " * [new branch]      fix_inference           -> origin/fix_inference\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      fix_oom_tests           -> origin/fix_oom_tests\n",
+      " * [new branch]      fix_req_paper_repro     -> origin/fix_req_paper_repro\n",
+      " * [new branch]      fix_stochastic          -> origin/fix_stochastic\n",
+      " * [new branch]      fix_unit_test           -> origin/fix_unit_test\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      github-templates        -> origin/github-templates\n",
+      " * [new branch]      ignore-masking          -> origin/ignore-masking\n",
+      " * [new branch]      laiacano/merlin-core-schema -> origin/laiacano/merlin-core-schema\n",
+      " * [new branch]      laiacano/skip-ci-on-closed-pr -> origin/laiacano/skip-ci-on-closed-pr\n",
+      " * [new branch]      license                 -> origin/license\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_quick_fix       -> origin/masking_quick_fix\n",
+      " * [new branch]      metric-names-prefix     -> origin/metric-names-prefix\n",
+      " * [new branch]      model_save_load         -> origin/model_save_load\n",
+      " * [new branch]      multi_gpu_doc           -> origin/multi_gpu_doc\n",
+      " * [new branch]      multi_gpu_doc_fix       -> origin/multi_gpu_doc_fix\n",
+      " * [new branch]      post_fusion_context     -> origin/post_fusion_context\n",
+      " * [new branch]      pretrained_embeddings_init -> origin/pretrained_embeddings_init\n",
+      " * [new branch]      pretrained_module       -> origin/pretrained_module\n",
+      " * [new branch]      pyt_serving             -> origin/pyt_serving\n",
+      " * [new branch]      pytorch/item-id-aggregator -> origin/pytorch/item-id-aggregator\n",
+      " * [new branch]      pytorch/label_smoothing -> origin/pytorch/label_smoothing\n",
+      " * [new branch]      pytorch/model-and-heads -> origin/pytorch/model-and-heads\n",
+      " * [new branch]      pytorch/model-updates   -> origin/pytorch/model-updates\n",
+      " * [new branch]      read_schema_from_core   -> origin/read_schema_from_core\n",
+      " * [new branch]      recsys22                -> origin/recsys22\n",
+      " * [new branch]      refactor-prediction-task -> origin/refactor-prediction-task\n",
+      " * [new branch]      refactor_part1          -> origin/refactor_part1\n",
+      " * [new branch]      refactor_part2          -> origin/refactor_part2\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-jperez999       -> origin/release-jperez999\n",
+      " * [new branch]      remove_paper_assets     -> origin/remove_paper_assets\n",
+      " * [new branch]      romeyn/dev              -> origin/romeyn/dev\n",
+      " * [new branch]      romeyn/transformer-configs -> origin/romeyn/transformer-configs\n",
+      " * [new branch]      save-schema-for-t4rec-model -> origin/save-schema-for-t4rec-model\n",
+      " * [new branch]      schema-pbtxt-bug        -> origin/schema-pbtxt-bug\n",
+      " * [new branch]      schema-shape-fix        -> origin/schema-shape-fix\n",
+      " * [new branch]      seq_binary_classification -> origin/seq_binary_classification\n",
+      " * [new branch]      serve_nvt_and__model    -> origin/serve_nvt_and__model\n",
+      " * [new branch]      session_features        -> origin/session_features\n",
+      " * [new branch]      slim_doc_deps           -> origin/slim_doc_deps\n",
+      " * [new branch]      soft_embeddings         -> origin/soft_embeddings\n",
+      " * [new branch]      ssn_seed                -> origin/ssn_seed\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      stochastic_noise        -> origin/stochastic_noise\n",
+      " * [new branch]      stochastic_noise2       -> origin/stochastic_noise2\n",
+      " * [new branch]      synthetic-data          -> origin/synthetic-data\n",
+      " * [new branch]      t4rec-MM-repro          -> origin/t4rec-MM-repro\n",
+      " * [new branch]      t4rec_paper_repro2      -> origin/t4rec_paper_repro2\n",
+      " * [new branch]      t4rec_refactor          -> origin/t4rec_refactor\n",
+      " * [new branch]      tensorflow              -> origin/tensorflow\n",
+      " * [new branch]      test-data               -> origin/test-data\n",
+      " * [new branch]      test/text_module        -> origin/test/text_module\n",
+      " * [new branch]      testing/updates         -> origin/testing/updates\n",
+      " * [new branch]      tf/example_notebook     -> origin/tf/example_notebook\n",
+      " * [new branch]      tf/fix_compute_loss     -> origin/tf/fix_compute_loss\n",
+      " * [new branch]      tf/fix_graph_mode       -> origin/tf/fix_graph_mode\n",
+      " * [new branch]      tf/model_saving_and_loading -> origin/tf/model_saving_and_loading\n",
+      " * [new branch]      tf/refactor_item_prediction_task -> origin/tf/refactor_item_prediction_task\n",
+      " * [new branch]      tf/refactor_masking     -> origin/tf/refactor_masking\n",
+      " * [new branch]      tf/refactor_ranking_metric -> origin/tf/refactor_ranking_metric\n",
+      " * [new branch]      tf/refactor_transformer_block -> origin/tf/refactor_transformer_block\n",
+      " * [new branch]      tf/save_load_model      -> origin/tf/save_load_model\n",
+      " * [new branch]      tf/test-utils           -> origin/tf/test-utils\n",
+      " * [new branch]      tf/to_tf_model          -> origin/tf/to_tf_model\n",
+      " * [new branch]      torch/demo_utils        -> origin/torch/demo_utils\n",
+      " * [new branch]      torch/fit_eval          -> origin/torch/fit_eval\n",
+      " * [new branch]      torch/fix_evaluation    -> origin/torch/fix_evaluation\n",
+      " * [new branch]      torch/fix_examples_utils -> origin/torch/fix_examples_utils\n",
+      " * [new branch]      torch/fix_wipe_memory   -> origin/torch/fix_wipe_memory\n",
+      " * [new branch]      torch/label_smoothing_loss -> origin/torch/label_smoothing_loss\n",
+      " * [new branch]      torch/next_item_prediction -> origin/torch/next_item_prediction\n",
+      " * [new branch]      torch/stochastic_swap_noise -> origin/torch/stochastic_swap_noise\n",
+      " * [new branch]      trainer_predict_step    -> origin/trainer_predict_step\n",
+      " * [new branch]      tutorial                -> origin/tutorial\n",
+      " * [new branch]      unittest_endtoend_multi -> origin/unittest_endtoend_multi\n",
+      " * [new branch]      update/torchmetrics     -> origin/update/torchmetrics\n",
+      " * [new branch]      utils                   -> origin/utils\n",
+      " * [new branch]      v0.1.2-docs             -> origin/v0.1.2-docs\n",
+      " * [new branch]      v0.1.3-docs             -> origin/v0.1.3-docs\n",
+      " * [new branch]      v0.1.4-docs             -> origin/v0.1.4-docs\n",
+      " * [new branch]      v0.1.5-docs             -> origin/v0.1.5-docs\n",
+      " * [new branch]      v0.1.6-docs             -> origin/v0.1.6-docs\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new branch]      v0.1.7-docs             -> origin/v0.1.7-docs\n",
+      " * [new tag]         v0.1.14                 -> v0.1.14\n",
+      " * [new tag]         v0.1.15                 -> v0.1.15\n",
+      " * [new tag]         v0.1.16                 -> v0.1.16\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      " * [new tag]           custom_dataloader       -> custom_dataloader\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.1.10                 -> v0.1.10\n",
+      " * [new tag]           v0.1.11                 -> v0.1.11\n",
+      " * [new tag]           v0.1.12                 -> v0.1.12\n",
+      " * [new tag]           v0.1.13                 -> v0.1.13\n",
+      " * [new tag]           v0.1.2                  -> v0.1.2\n",
+      " * [new tag]           v0.1.3                  -> v0.1.3\n",
+      " * [new tag]           v0.1.4                  -> v0.1.4\n",
+      " * [new tag]           v0.1.5                  -> v0.1.5\n",
+      " * [new tag]           v0.1.6                  -> v0.1.6\n",
+      " * [new tag]           v0.1.7                  -> v0.1.7\n",
+      " * [new tag]           v0.1.8                  -> v0.1.8\n",
+      " * [new tag]           v0.1.9                  -> v0.1.9\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /transformers4rec\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: transformers4rec\n",
+      "  Building wheel for transformers4rec (PEP 517): started\n",
+      "  Building wheel for transformers4rec (PEP 517): finished with status 'done'\n",
+      "  Created wheel for transformers4rec: filename=transformers4rec-23.5.dev0+11.ga070e77f-py3-none-any.whl size=481639 sha256=c87755b3edaa042660591a34046a487bd7a0921748342baa46371ae2568e7a1b\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-bk3gt81g/wheels/24/44/e3/c29f7de8e7315585705f880ad32ffeae66fcaeb79003405ef6\n",
+      "Successfully built transformers4rec\n",
+      "Installing collected packages: transformers4rec\n",
+      "  Attempting uninstall: transformers4rec\n",
+      "    Found existing installation: transformers4rec 23.4.0\n",
+      "    Uninstalling transformers4rec-23.4.0:\n",
+      "      Successfully uninstalled transformers4rec-23.4.0\n",
+      "Successfully installed transformers4rec-23.5.dev0+11.ga070e77f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Note: switching to 'origin/release-23.04'.\n",
+      "\n",
+      "You are in 'detached HEAD' state. You can look around, make experimental\n",
+      "changes and commit them, and you can discard any commits you make in this\n",
+      "state without impacting any branches by switching back to a branch.\n",
+      "\n",
+      "If you want to create a new branch to retain commits you create, you may\n",
+      "do so (now or later) by using -c with the switch command. Example:\n",
+      "\n",
+      "  git switch -c <new-branch-name>\n",
+      "\n",
+      "Or undo this operation with:\n",
+      "\n",
+      "  git switch -\n",
+      "\n",
+      "Turn off this advice by setting config variable advice.detachedHead to false\n",
+      "\n",
+      "HEAD is now at 2516efb Return version 23.04.00 from versions\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.4.0-py3-none-any.whl size=82535 sha256=d8530f8b224d1be1c9d2e7f8e2de798a601e790365c4b098aa639c90dc6df383\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zg_mvjzk/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 23.5.dev0+8.g2b1b90b\n",
+      "    Uninstalling merlin-systems-23.5.dev0+8.g2b1b90b:\n",
+      "      Successfully uninstalled merlin-systems-23.5.dev0+8.g2b1b90b\n",
+      "Successfully installed merlin-systems-23.4.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "cd /core\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /dataloader\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /nvtabular\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /models\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /systems\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /transformers4rec\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /systems\n",
+    "git checkout origin/release-23.04\n",
+    "pip install . --no-deps"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "e9929dc8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Requirement already satisfied: gdown in /usr/local/lib/python3.8/dist-packages (4.7.1)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.12.0)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.12.2)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.29.0)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.65.0)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.4.1)\n",
+      "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (3.1.0)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (1.25.8)\n",
+      "Requirement already satisfied: PySocks!=1.5.7,>=1.5.6; extra == \"socks\" in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (1.7.1)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Downloading...\n",
+      "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=6953ace2-159c-421a-85be-411cfe20d627\n",
+      "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:00<00:00, 158MB/s] \n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [1009 kB]\n",
+      "Get:4 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
+      "Get:6 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:7 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:8 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
+      "Get:9 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:11 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:12 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:14 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Fetched 27.3 MB in 4s (7788 kB/s)\n",
+      "Reading package lists...\n",
+      "Reading package lists...\n",
+      "Building dependency tree...\n",
+      "Reading state information...\n",
+      "unzip is already the newest version (6.0-25ubuntu1.1).\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 60 not upgraded.\n",
+      "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
+      "   creating: ecom_dataset/0001/\n",
+      "  inflating: ecom_dataset/0001/valid.parquet  \n",
+      " extracting: ecom_dataset/0001/.zip  \n",
+      "  inflating: ecom_dataset/0001/train.parquet  \n",
+      "  inflating: ecom_dataset/0001/test.parquet  \n",
+      "   creating: ecom_dataset/0002/\n",
+      "  inflating: ecom_dataset/0002/valid.parquet  \n",
+      "  inflating: ecom_dataset/0002/train.parquet  \n",
+      "  inflating: ecom_dataset/0002/test.parquet  \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "fd80de2a",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-05-09 09:22:21.081264: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-05-09 09:22:27.110014: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:66] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /lib:/usr/local/lib/python3.8/dist-packages/tensorflow:/usr/local/cuda/compat/lib:/usr/local/nvidia/lib:/usr/local/nvidia/lib64:/usr/local/cuda-11/lib64:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/lib:/repos/dist/lib:/usr/lib/jvm/default-java/lib:/usr/lib/jvm/default-java/lib/server:/opt/tritonserver/lib:/usr/local/hugectr/lib\n",
+      "2023-05-09 09:22:27.110043: W tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:265] failed call to cuInit: UNKNOWN ERROR (303)\n",
+      "2023-05-09 09:22:27.110065: I tensorflow/compiler/xla/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (49ae924556c8): /proc/driver/nvidia/version does not exist\n",
+      "2023-05-09 09:22:27.665462: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8a07ad6f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "0471f48d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for fn in ['ecom_dataset/0001/train.parquet', 'ecom_dataset/0002/test.parquet']:\n",
+    "    t = pd.read_parquet(fn)\n",
+    "    t[['sess_pid_seq']].to_parquet(fn)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'\n",
+    "seq_name = target"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 1\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "410ea223",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# seq_name = 'seq'\n",
+    "# target = seq_name"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "4328f03a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from nvtabular.inference.triton import export_tensorflow_ensemble\n",
+    "from nvtabular import Workflow\n",
+    "from nvtabular.ops import Categorify, Rename"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "d5a9dd50",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "ops = ['sess_pid_seq'] >> Categorify(dtype=np.int32) #>> Rename(name=seq_name)\n",
+    "\n",
+    "wf = Workflow(ops)\n",
+    "\n",
+    "train = wf.fit_transform(train)\n",
+    "valid = wf.transform(valid)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        './',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name(seq_name)\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "7baec64f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer, xlnet_block = get_model()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "2b09261c",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "Model(\n",
+       "  (_should_compute_train_metrics_for_batch): <tf.Variable 'should_compute_train_metrics_for_batch:0' shape=() dtype=bool, numpy=True>\n",
+       "  (blocks): _TupleWrapper((SequentialBlock(\n",
+       "    (layers): List(\n",
+       "      (0): ParallelBlock(\n",
+       "        (_aggregation): ConcatFeatures(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (parallel_layers): Dict(\n",
+       "          (categorical): ParallelBlock(\n",
+       "            (parallel_layers): Dict(\n",
+       "              (sess_pid_seq): EmbeddingTable(\n",
+       "                (features): Dict(\n",
+       "                  (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.ID: 'id'>, <Tags.LIST: 'list'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ITEM_ID: 'item_id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
+       "                )\n",
+       "                (table): Embedding(\n",
+       "                  (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
+       "                  array([[-0.02180919, -0.03997137, -0.11179104, ..., -0.03416266,\n",
+       "                           0.00394675, -0.04170727],\n",
+       "                         [ 0.0271936 ,  0.00224299, -0.03736906, ...,  0.05833315,\n",
+       "                          -0.01913971,  0.01903887],\n",
+       "                         [ 0.08746263,  0.0086189 , -0.0169563 , ...,  0.0481042 ,\n",
+       "                          -0.04499301,  0.05150751],\n",
+       "                         ...,\n",
+       "                         [-0.06129743, -0.01724566, -0.03767433, ..., -0.05394596,\n",
+       "                           0.0200046 , -0.03031199],\n",
+       "                         [-0.03149989, -0.05066097, -0.10494142, ...,  0.01400184,\n",
+       "                           0.03784238, -0.00830359],\n",
+       "                         [-0.06853955, -0.0693624 , -0.0943587 , ...,  0.03133552,\n",
+       "                          -0.01350261, -0.00852626]], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (1): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): _Dense(\n",
+       "            (dense): Dense(\n",
+       "              192, activation=linear, use_bias=True\n",
+       "              (kernel): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/kernel:0' shape=(448, 192) dtype=float32, numpy=\n",
+       "              array([[ 0.04003939, -0.0487695 , -0.04752838, ...,  0.0516327 ,\n",
+       "                      -0.0566263 , -0.08578825],\n",
+       "                     [ 0.05301361, -0.08633213,  0.00137263, ...,  0.12168534,\n",
+       "                      -0.0057356 ,  0.09171198],\n",
+       "                     [-0.01877121,  0.04486992,  0.06395879, ...,  0.0934891 ,\n",
+       "                      -0.01821486, -0.00752169],\n",
+       "                     ...,\n",
+       "                     [-0.07314106, -0.10408618,  0.06750688, ..., -0.03908316,\n",
+       "                      -0.0664428 , -0.01464119],\n",
+       "                     [ 0.09918408, -0.08844327, -0.14032918, ..., -0.02123138,\n",
+       "                       0.02668897, -0.05024707],\n",
+       "                     [ 0.01856062,  0.11415328, -0.06040798, ...,  0.03800441,\n",
+       "                       0.09542225, -0.05533722]], dtype=float32)>\n",
+       "              (bias): <tf.Variable 'model/sequential_block_4/sequential_block_3/private__dense_4/dense_4/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "              array([-5.01384214e-03, -2.07681675e-03,  2.63812356e-02,  4.04670974e-03,\n",
+       "                     -5.87394740e-03,  1.47725018e-02, -2.25012354e-03, -4.22666967e-03,\n",
+       "                     -2.64508324e-03, -3.30810226e-03, -2.68465257e-03,  1.09991375e-02,\n",
+       "                      1.36857685e-02, -2.52527222e-02,  6.16267091e-03,  9.36492067e-03,\n",
+       "                     -5.57307573e-03, -6.34199567e-03, -7.76038878e-03, -8.14743061e-03,\n",
+       "                      4.92189219e-03, -1.89717393e-02, -2.05828063e-02,  5.34713222e-03,\n",
+       "                      4.65414813e-03,  2.10713148e-02,  2.68927533e-02, -1.01535721e-02,\n",
+       "                      1.58503782e-02,  1.79775264e-02, -8.86854343e-03,  1.39958190e-03,\n",
+       "                     -2.13773310e-04,  1.21040531e-02,  1.34699661e-02,  8.30969308e-03,\n",
+       "                      1.22914026e-02, -2.95245629e-02, -9.47004464e-03,  1.10127246e-02,\n",
+       "                      5.25244250e-05, -9.13554744e-04, -2.73810947e-05,  1.42006325e-02,\n",
+       "                     -3.38601228e-03, -1.32774757e-02, -1.68138333e-02,  1.33488672e-02,\n",
+       "                      2.58271088e-04,  1.22822085e-02, -1.23223355e-02,  1.65011398e-02,\n",
+       "                     -1.57685170e-03, -1.50367040e-02,  6.16692938e-03, -8.78564082e-03,\n",
+       "                      2.64428044e-03,  1.44239387e-03,  2.27694865e-02,  3.61171663e-02,\n",
+       "                      8.45758710e-03, -1.21084005e-02, -5.62530104e-03, -6.90208841e-03,\n",
+       "                     -3.43213766e-03,  1.34643298e-02, -7.84355588e-03,  6.52356306e-03,\n",
+       "                     -1.23099722e-02,  7.16198189e-03, -2.01911130e-03,  1.91916358e-02,\n",
+       "                      7.95230828e-03, -1.15519669e-02,  2.22444721e-03, -1.36651946e-02,\n",
+       "                      1.00301849e-02,  1.28411250e-02, -3.36604659e-03, -1.65250618e-02,\n",
+       "                     -1.76164825e-02, -2.01909635e-02, -5.43792639e-03, -1.36551866e-03,\n",
+       "                     -1.35950297e-02, -1.19470842e-02, -2.49133669e-02,  4.60256729e-03,\n",
+       "                      2.20684838e-02,  1.51606081e-02, -1.38018755e-02,  3.29716541e-02,\n",
+       "                      1.63087025e-02, -9.20139905e-03,  2.96489708e-02, -2.04561464e-02,\n",
+       "                      6.26523513e-04, -1.02348858e-02,  2.50676963e-02, -1.87389981e-02,\n",
+       "                      1.78378969e-02,  5.96003234e-03, -1.58722773e-02,  1.28818769e-02,\n",
+       "                      1.92068778e-02,  1.20651657e-02, -1.68147553e-02,  1.43624879e-02,\n",
+       "                     -1.01083741e-02,  1.20037785e-02,  1.59758087e-02,  1.57095343e-02,\n",
+       "                      2.26428695e-02,  6.11301465e-03,  9.74079128e-03, -9.97461565e-03,\n",
+       "                      1.37187056e-02, -3.77600943e-03, -1.79441515e-02, -1.32397551e-03,\n",
+       "                      3.59026389e-03, -1.43049592e-02,  1.21511845e-02, -1.65540911e-02,\n",
+       "                      1.42325992e-02,  4.54540132e-03, -4.68203612e-03,  9.48254205e-03,\n",
+       "                      1.09916851e-02,  5.32748923e-03, -1.16358150e-03, -3.05881649e-02,\n",
+       "                     -2.40320452e-02,  9.97856166e-03, -2.13721190e-02,  1.68835726e-02,\n",
+       "                     -3.20457593e-02,  1.95409134e-02,  2.47822683e-02, -8.06471333e-03,\n",
+       "                      1.66315341e-03, -1.69793591e-02,  1.56057077e-02,  1.04995146e-02,\n",
+       "                     -3.05535947e-03, -1.95695404e-02,  1.31371366e-02, -1.41552025e-02,\n",
+       "                     -5.43513242e-03,  5.88716473e-03,  1.74476430e-02, -1.72924120e-02,\n",
+       "                      6.67538308e-03, -2.36609187e-02,  1.51608828e-02, -4.90453606e-03,\n",
+       "                     -1.00867301e-02,  6.17637765e-03, -2.50370544e-03,  8.32778122e-03,\n",
+       "                      2.90465690e-02,  1.59739871e-02, -2.46254001e-02,  1.77034698e-02,\n",
+       "                      7.13480217e-03,  1.75780021e-02,  1.03074061e-02, -1.05025666e-02,\n",
+       "                      7.57428119e-04, -7.80257955e-03,  1.36492318e-02,  5.93753485e-03,\n",
+       "                     -6.61362801e-03, -2.51666792e-02, -1.24066649e-02,  1.74865816e-02,\n",
+       "                     -1.73123425e-03, -1.28947683e-02, -3.74754681e-03, -2.83876434e-02,\n",
+       "                     -1.39519162e-02, -1.55240810e-02, -1.36297807e-04,  4.96712141e-03,\n",
+       "                     -1.65262353e-02,  4.40391991e-03, -2.19136886e-02, -1.68165390e-03,\n",
+       "                     -1.30731678e-02,  9.15555720e-05, -2.53333263e-02,  1.50441350e-02],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (2): XLNetBlock(\n",
+       "        (transformer): TFXLNetMainLayer(\n",
+       "          (word_embedding): TFSharedEmbeddings(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (layer): List(\n",
+       "            (0): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([0.9989502 , 1.0576062 , 1.0346638 , 1.0038435 , 1.0374217 ,\n",
+       "                         0.9977826 , 0.97864133, 0.98316896, 0.9935035 , 0.9916651 ,\n",
+       "                         1.015681  , 1.0290096 , 0.9808166 , 1.0257354 , 1.000677  ,\n",
+       "                         0.9632928 , 1.044944  , 1.0062993 , 1.0191413 , 1.0176857 ,\n",
+       "                         1.0402725 , 1.0175707 , 0.98682123, 0.97339106, 0.9845099 ,\n",
+       "                         0.9804151 , 1.0213319 , 1.0054113 , 1.0528314 , 0.9889174 ,\n",
+       "                         0.9937365 , 1.0097672 , 1.0127248 , 1.006905  , 1.015017  ,\n",
+       "                         1.0074348 , 1.0236213 , 1.0611415 , 0.9670407 , 0.95555675,\n",
+       "                         1.016661  , 1.0175687 , 0.9885798 , 1.0268141 , 0.99260455,\n",
+       "                         1.0130196 , 0.96392965, 1.0521348 , 1.005183  , 0.9902206 ,\n",
+       "                         0.986818  , 1.0324047 , 1.0282564 , 1.0029398 , 0.97551364,\n",
+       "                         1.0035061 , 1.0430536 , 1.0239351 , 1.0063419 , 1.0468767 ,\n",
+       "                         1.0370821 , 0.98937815, 0.9625464 , 0.99105746, 1.0044199 ,\n",
+       "                         1.0211848 , 0.9974975 , 1.022141  , 1.0122687 , 1.0115696 ,\n",
+       "                         1.0342648 , 0.9763004 , 1.007962  , 1.0222591 , 1.000258  ,\n",
+       "                         0.99757713, 0.9835959 , 1.0415024 , 0.9692734 , 1.0120147 ,\n",
+       "                         0.9842971 , 0.97031707, 0.9745148 , 1.0065541 , 0.9942128 ,\n",
+       "                         1.0173663 , 1.0420299 , 1.0106033 , 1.0227505 , 0.97091013,\n",
+       "                         0.99910146, 1.0036598 , 0.9966806 , 1.0628989 , 0.9995429 ,\n",
+       "                         1.0375715 , 1.0593297 , 1.022408  , 1.0155457 , 1.0130228 ,\n",
+       "                         0.98888063, 1.0000523 , 1.0237609 , 1.0044953 , 0.99615127,\n",
+       "                         0.9612573 , 1.0305171 , 1.0335096 , 1.0161718 , 1.0182958 ,\n",
+       "                         1.0195628 , 0.98464763, 1.0137556 , 1.0186883 , 1.0172639 ,\n",
+       "                         0.9758079 , 1.0113739 , 1.0006955 , 1.0438493 , 1.0092262 ,\n",
+       "                         1.0062629 , 1.0154696 , 1.0118166 , 0.99463564, 1.013566  ,\n",
+       "                         1.0239315 , 0.9455156 , 1.0182073 , 1.0032462 , 0.96416503,\n",
+       "                         1.0194111 , 1.032431  , 0.9965644 , 1.002404  , 1.0118709 ,\n",
+       "                         1.0253462 , 0.996495  , 1.0395119 , 1.0123875 , 1.0056695 ,\n",
+       "                         1.028315  , 1.0058223 , 1.0289586 , 0.9974421 , 1.0387748 ,\n",
+       "                         0.99552464, 1.0344083 , 1.031274  , 1.025091  , 1.0181113 ,\n",
+       "                         1.0315706 , 1.0073855 , 0.9761123 , 1.0203675 , 0.9985076 ,\n",
+       "                         0.96607   , 1.0553861 , 0.98623693, 1.026023  , 1.0687001 ,\n",
+       "                         0.9897466 , 1.0263782 , 1.0701145 , 0.96022284, 0.978006  ,\n",
+       "                         1.0212058 , 1.0096318 , 0.98825616, 0.99732673, 1.0245711 ,\n",
+       "                         1.0135304 , 1.0025978 , 0.9863238 , 1.0285221 , 0.9803323 ,\n",
+       "                         1.0442008 , 1.0270132 , 1.0278133 , 0.9959899 , 1.0158675 ,\n",
+       "                         0.97460854, 1.0063546 , 1.0306209 , 1.0761561 , 1.0264145 ,\n",
+       "                         0.9893562 , 1.0281392 , 1.0187237 , 0.97821856, 1.0211488 ,\n",
+       "                         1.0148977 , 0.98631346], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.01564801,  0.05031539,  0.00410429, -0.01065608, -0.02726947,\n",
+       "                          0.02508902,  0.00038222,  0.0164835 , -0.02004843, -0.02176234,\n",
+       "                         -0.04638448,  0.02115005,  0.02569144, -0.00894257,  0.00444741,\n",
+       "                          0.01192614, -0.02655895, -0.01222136, -0.02186232,  0.02919175,\n",
+       "                         -0.01799272,  0.0262308 , -0.00777147,  0.01395177, -0.01551217,\n",
+       "                          0.02763644,  0.02442515,  0.03102502, -0.01572912,  0.01635238,\n",
+       "                         -0.01084259, -0.00567258, -0.02127197,  0.01155333,  0.00471407,\n",
+       "                          0.03379904,  0.00862479, -0.01966641, -0.02059177, -0.03856507,\n",
+       "                          0.01532526,  0.00795538,  0.00731614,  0.03556439,  0.01201337,\n",
+       "                         -0.00874254, -0.04334877,  0.01023173, -0.01064972,  0.02030286,\n",
+       "                         -0.01186844,  0.04643561, -0.01453828,  0.02887264, -0.00915464,\n",
+       "                         -0.02330581, -0.03368274,  0.01621977,  0.0291714 ,  0.00578914,\n",
+       "                         -0.00057888,  0.0185579 ,  0.00812104, -0.00980973,  0.01644247,\n",
+       "                          0.00089342, -0.0025648 ,  0.01388613, -0.01212206,  0.00365601,\n",
+       "                          0.01405088,  0.011668  ,  0.00313982,  0.02685886,  0.0206239 ,\n",
+       "                          0.0058649 , -0.00263495,  0.04062287, -0.03826027, -0.00315069,\n",
+       "                         -0.01107017, -0.00134605, -0.00060359,  0.00954621, -0.01417858,\n",
+       "                          0.02703607, -0.02937767, -0.01266916,  0.00296571, -0.01783368,\n",
+       "                         -0.01472187,  0.01814925, -0.0040843 ,  0.00669216,  0.034233  ,\n",
+       "                          0.00960267, -0.02075798, -0.03373486,  0.02624991, -0.01618384,\n",
+       "                          0.02431716,  0.02215847, -0.02458511,  0.00027981,  0.00465162,\n",
+       "                         -0.01309961, -0.00513958,  0.00866651, -0.02965664,  0.01000427,\n",
+       "                          0.04259624,  0.01365784,  0.00716883, -0.02355205, -0.00349983,\n",
+       "                          0.01176547,  0.01298331, -0.00865425,  0.01498848, -0.01449755,\n",
+       "                          0.02386551, -0.0146591 ,  0.02687347, -0.01478878,  0.00625256,\n",
+       "                          0.00282382,  0.01835389,  0.01584293,  0.02580659, -0.01374832,\n",
+       "                         -0.01775724, -0.00105102, -0.02854055,  0.00875541,  0.00043491,\n",
+       "                         -0.04452521, -0.01476665, -0.01148101, -0.01217891, -0.00160031,\n",
+       "                          0.0057057 , -0.0168117 ,  0.03591807,  0.00512471,  0.0027506 ,\n",
+       "                         -0.00039103,  0.00481961, -0.01031037,  0.01574421, -0.02259344,\n",
+       "                         -0.01047808,  0.00495247, -0.02535135, -0.01565124,  0.00210174,\n",
+       "                         -0.00781817, -0.04997245, -0.01766316, -0.01142531, -0.01968011,\n",
+       "                          0.00650187,  0.03887424, -0.00735652, -0.00948206,  0.0062764 ,\n",
+       "                         -0.01378202, -0.01511695,  0.04289937,  0.01610814,  0.02360756,\n",
+       "                          0.0086963 ,  0.01288334, -0.0007249 ,  0.00063419,  0.00933304,\n",
+       "                          0.00634397,  0.00677541, -0.01751881, -0.01359569, -0.009512  ,\n",
+       "                          0.00685608, -0.01254726, -0.01196539,  0.00532526, -0.03268864,\n",
+       "                         -0.00706812, -0.01631153, -0.01945196, -0.0313373 , -0.00119667,\n",
+       "                         -0.02276768,  0.01590502], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.07465401,  0.06472938,  0.07060932, ..., -0.08073311,\n",
+       "                          0.07338328,  0.06063193],\n",
+       "                        [ 0.06749107, -0.07578631,  0.07652911, ...,  0.07553609,\n",
+       "                         -0.07781389,  0.05728458],\n",
+       "                        [ 0.07914475, -0.07096852,  0.0758997 , ..., -0.07451519,\n",
+       "                          0.08720462,  0.07374965],\n",
+       "                        ...,\n",
+       "                        [-0.0663526 , -0.06575809,  0.0565715 , ...,  0.09362454,\n",
+       "                          0.04912814,  0.08134829],\n",
+       "                        [ 0.07272896,  0.05966271,  0.05624672, ...,  0.05355152,\n",
+       "                          0.06333862,  0.07617778],\n",
+       "                        [-0.04439021,  0.05825948, -0.05253003, ..., -0.04820357,\n",
+       "                         -0.06917557,  0.07237349]],\n",
+       "                \n",
+       "                       [[-0.10011533, -0.11412048, -0.09385281, ...,  0.08717619,\n",
+       "                         -0.08888666, -0.0993549 ],\n",
+       "                        [-0.05448947,  0.03732244, -0.03167331, ..., -0.04544163,\n",
+       "                          0.04660046, -0.02991796],\n",
+       "                        [-0.06950059,  0.07803331, -0.08058758, ...,  0.07841507,\n",
+       "                         -0.10456846, -0.08787055],\n",
+       "                        ...,\n",
+       "                        [ 0.0630033 ,  0.06069206, -0.06263281, ..., -0.04891612,\n",
+       "                         -0.0542945 , -0.07239168],\n",
+       "                        [-0.00758942,  0.01119974,  0.01332581, ..., -0.01286488,\n",
+       "                          0.00207401,  0.00079829],\n",
+       "                        [ 0.06658119, -0.05085666,  0.06656442, ...,  0.07660682,\n",
+       "                          0.07427317, -0.06252758]],\n",
+       "                \n",
+       "                       [[-0.11073057, -0.10081359, -0.12153006, ...,  0.11317257,\n",
+       "                         -0.10553624, -0.10985853],\n",
+       "                        [-0.09318667,  0.07455036, -0.090079  , ..., -0.09517727,\n",
+       "                          0.08885422, -0.09878843],\n",
+       "                        [-0.0701437 ,  0.05605372, -0.07704974, ...,  0.06382198,\n",
+       "                         -0.07163794, -0.06376936],\n",
+       "                        ...,\n",
+       "                        [ 0.06640515,  0.06422191, -0.03999973, ..., -0.05697949,\n",
+       "                         -0.05197844, -0.0753065 ],\n",
+       "                        [-0.0482451 , -0.03754503, -0.0361612 , ..., -0.0442449 ,\n",
+       "                         -0.05040614, -0.03695468],\n",
+       "                        [ 0.08578547, -0.11016572,  0.09932826, ...,  0.09526014,\n",
+       "                          0.07219096, -0.09667978]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.08899453,  0.08351997,  0.08101685, ..., -0.06629151,\n",
+       "                          0.08502361,  0.07621197],\n",
+       "                        [ 0.05743176, -0.06251122,  0.06233266, ...,  0.05806597,\n",
+       "                         -0.06832655,  0.03377869],\n",
+       "                        [ 0.10216253, -0.08750022,  0.07817484, ..., -0.08476172,\n",
+       "                          0.05987116,  0.07416327],\n",
+       "                        ...,\n",
+       "                        [-0.07072166, -0.06108825,  0.06093866, ...,  0.05758123,\n",
+       "                          0.06326196,  0.06588235],\n",
+       "                        [ 0.01994142,  0.02066598,  0.03568684, ...,  0.01882937,\n",
+       "                          0.02734543,  0.02604944],\n",
+       "                        [-0.06781037,  0.06784602, -0.07872033, ..., -0.07433689,\n",
+       "                         -0.09181566,  0.08851271]],\n",
+       "                \n",
+       "                       [[-0.02606016, -0.02737696, -0.01055808, ...,  0.02336601,\n",
+       "                         -0.01676143, -0.02515292],\n",
+       "                        [-0.01419585, -0.00202125,  0.00385271, ...,  0.00217426,\n",
+       "                         -0.00383362, -0.02988884],\n",
+       "                        [ 0.05142671, -0.03943966,  0.0374524 , ..., -0.02985014,\n",
+       "                          0.05794137,  0.04038725],\n",
+       "                        ...,\n",
+       "                        [ 0.04279425,  0.04664461, -0.04529398, ..., -0.03161315,\n",
+       "                         -0.03006786, -0.04242131],\n",
+       "                        [ 0.06091673,  0.04921605,  0.03961667, ...,  0.04841657,\n",
+       "                          0.06400887,  0.07853462],\n",
+       "                        [ 0.0035573 ,  0.00629171, -0.00918715, ..., -0.01010308,\n",
+       "                          0.00100685,  0.01805877]],\n",
+       "                \n",
+       "                       [[-0.19375055, -0.20809007, -0.20518027, ...,  0.20026137,\n",
+       "                         -0.19558044, -0.19182122],\n",
+       "                        [-0.21756965,  0.22040519, -0.2200476 , ..., -0.22124195,\n",
+       "                          0.22402586, -0.20523962],\n",
+       "                        [-0.24113753,  0.22089581, -0.2396485 , ...,  0.23252076,\n",
+       "                         -0.2084851 , -0.22979937],\n",
+       "                        ...,\n",
+       "                        [ 0.22055982,  0.21025379, -0.21311197, ..., -0.23441206,\n",
+       "                         -0.20681979, -0.21566269],\n",
+       "                        [-0.1896753 , -0.17930022, -0.17912784, ..., -0.16986312,\n",
+       "                         -0.18861811, -0.14778696],\n",
+       "                        [ 0.19786158, -0.22164111,  0.23266463, ...,  0.21371098,\n",
+       "                          0.1959268 , -0.20853978]]], dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.03982621,  0.04634362,  0.02969166, ..., -0.04535549,\n",
+       "                          0.03976392,  0.03817748],\n",
+       "                        [ 0.02065867, -0.02277696,  0.01796075, ...,  0.0193889 ,\n",
+       "                         -0.01798368, -0.00012475],\n",
+       "                        [-0.05693278,  0.06433725, -0.06601404, ...,  0.07023417,\n",
+       "                         -0.0644145 , -0.05952094],\n",
+       "                        ...,\n",
+       "                        [ 0.03724918,  0.02224839, -0.01713489, ..., -0.01764813,\n",
+       "                         -0.03095339, -0.02385698],\n",
+       "                        [-0.02685979, -0.03892907, -0.0352765 , ..., -0.03908732,\n",
+       "                         -0.03731468, -0.03116913],\n",
+       "                        [ 0.02750592, -0.02940916,  0.03723293, ...,  0.04330644,\n",
+       "                          0.01890267, -0.01717454]],\n",
+       "                \n",
+       "                       [[-0.03354729, -0.03685676, -0.03322748, ...,  0.00274901,\n",
+       "                         -0.01665791, -0.0148938 ],\n",
+       "                        [-0.03874097,  0.05202375, -0.04577698, ..., -0.02982778,\n",
+       "                          0.05710219, -0.03194526],\n",
+       "                        [ 0.00738964, -0.00594813, -0.02685028, ...,  0.01640934,\n",
+       "                         -0.00999039, -0.0257416 ],\n",
+       "                        ...,\n",
+       "                        [ 0.05005649,  0.04650406, -0.0339541 , ..., -0.03088401,\n",
+       "                         -0.03641143, -0.05107675],\n",
+       "                        [-0.03754756, -0.04477862, -0.02373394, ..., -0.04477538,\n",
+       "                         -0.0326349 , -0.0359891 ],\n",
+       "                        [ 0.04423146, -0.05135956,  0.05516965, ...,  0.06424858,\n",
+       "                          0.03283761, -0.06065867]],\n",
+       "                \n",
+       "                       [[ 0.08610801,  0.0792455 ,  0.08716258, ..., -0.08730735,\n",
+       "                          0.0859801 ,  0.06665679],\n",
+       "                        [ 0.02973051, -0.05987825,  0.0507506 , ...,  0.03947309,\n",
+       "                         -0.04543421,  0.05414715],\n",
+       "                        [ 0.04466533, -0.06287424,  0.05043598, ..., -0.04664594,\n",
+       "                          0.07069402,  0.04471494],\n",
+       "                        ...,\n",
+       "                        [-0.0437069 , -0.03004871,  0.04597325, ...,  0.04288679,\n",
+       "                          0.02764161,  0.03305215],\n",
+       "                        [ 0.02189361,  0.03663293,  0.03532149, ...,  0.02713455,\n",
+       "                          0.02633648,  0.03900206],\n",
+       "                        [-0.06676853,  0.05484065, -0.06289707, ..., -0.07485867,\n",
+       "                         -0.07037278,  0.0603456 ]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.00853173,  0.02272682, -0.00073874, ..., -0.02110041,\n",
+       "                          0.00689003,  0.002274  ],\n",
+       "                        [ 0.02738365, -0.01524352,  0.00340239, ...,  0.00913391,\n",
+       "                         -0.00663603,  0.00939901],\n",
+       "                        [-0.01470056, -0.00161049, -0.0129185 , ...,  0.0195723 ,\n",
+       "                         -0.00395532, -0.02813762],\n",
+       "                        ...,\n",
+       "                        [-0.01113444,  0.0028391 , -0.00770884, ..., -0.00617313,\n",
+       "                         -0.00045944,  0.01071145],\n",
+       "                        [-0.03531639, -0.02128815, -0.01397392, ..., -0.0180376 ,\n",
+       "                         -0.02603853, -0.01086281],\n",
+       "                        [ 0.03301041, -0.05099879,  0.03797607, ...,  0.0372763 ,\n",
+       "                          0.019474  , -0.02953582]],\n",
+       "                \n",
+       "                       [[-0.07365561, -0.06636481, -0.07385948, ...,  0.07757259,\n",
+       "                         -0.06353518, -0.0606568 ],\n",
+       "                        [-0.03435581,  0.04452751, -0.07223876, ..., -0.03295099,\n",
+       "                          0.05674427, -0.05030363],\n",
+       "                        [-0.08901997,  0.1159115 , -0.12224417, ...,  0.10312869,\n",
+       "                         -0.11139406, -0.10536477],\n",
+       "                        ...,\n",
+       "                        [ 0.07236408,  0.05375469, -0.03755553, ..., -0.057065  ,\n",
+       "                         -0.03634366, -0.04288524],\n",
+       "                        [-0.07081108, -0.09506831, -0.084653  , ..., -0.100339  ,\n",
+       "                         -0.07624822, -0.11304466],\n",
+       "                        [ 0.04854869, -0.06215874,  0.05231146, ...,  0.06709328,\n",
+       "                          0.04539494, -0.05279939]],\n",
+       "                \n",
+       "                       [[-0.04500421, -0.05344107, -0.04957467, ...,  0.05529626,\n",
+       "                         -0.05289495, -0.04973142],\n",
+       "                        [-0.05061682,  0.03426979, -0.03778715, ..., -0.0450584 ,\n",
+       "                          0.03818877, -0.0593758 ],\n",
+       "                        [-0.01262661,  0.01937299, -0.03704944, ...,  0.01548174,\n",
+       "                         -0.01348604, -0.00987264],\n",
+       "                        ...,\n",
+       "                        [-0.02322798, -0.01663445,  0.00602973, ...,  0.00691767,\n",
+       "                          0.01240894,  0.00756894],\n",
+       "                        [-0.03177977, -0.02034881, -0.02087708, ..., -0.0205056 ,\n",
+       "                         -0.0258639 , -0.02174775],\n",
+       "                        [-0.05961272,  0.05352452, -0.03566991, ..., -0.05334552,\n",
+       "                         -0.05424745,  0.05725127]]], dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 8.82501435e-03, -1.81485433e-02, -8.17508716e-03, ...,\n",
+       "                          1.62277259e-02, -1.62000190e-02,  1.15035567e-02],\n",
+       "                        [ 2.51571126e-02, -3.34611163e-02,  1.41268084e-02, ...,\n",
+       "                         -3.19808088e-02,  3.82376499e-02, -3.10915485e-02],\n",
+       "                        [-6.06647506e-02,  1.32400207e-02, -8.13229196e-03, ...,\n",
+       "                          8.38858355e-03,  5.15362853e-03, -1.90225989e-03],\n",
+       "                        ...,\n",
+       "                        [-6.57490119e-02,  4.94322879e-03, -2.49304082e-02, ...,\n",
+       "                         -6.18668552e-03, -5.20401858e-02,  8.34745169e-02],\n",
+       "                        [-3.45638022e-02,  2.44357400e-02, -7.28670508e-03, ...,\n",
+       "                         -1.30881947e-02, -4.00486924e-02,  5.86403720e-03],\n",
+       "                        [-2.07821764e-02,  1.02347406e-02,  2.27580033e-02, ...,\n",
+       "                          1.92762651e-02, -3.48887183e-02, -1.13282437e-02]],\n",
+       "                \n",
+       "                       [[-1.76593959e-02, -1.85443147e-03,  4.83898818e-03, ...,\n",
+       "                         -9.99075454e-03,  3.24669713e-03, -4.43941802e-02],\n",
+       "                        [-5.83989313e-03, -6.99072406e-02,  1.35309575e-02, ...,\n",
+       "                          5.29645346e-02, -1.33149689e-02,  2.91646048e-02],\n",
+       "                        [ 4.29321118e-02, -6.51830807e-02,  4.40529967e-03, ...,\n",
+       "                          8.74261186e-02, -6.65134713e-02, -5.61560690e-03],\n",
+       "                        ...,\n",
+       "                        [ 3.39351594e-02,  2.17647222e-03, -4.02587876e-02, ...,\n",
+       "                         -7.02112988e-02,  4.79908846e-02, -1.94322243e-02],\n",
+       "                        [-5.39308675e-02,  5.15811937e-03,  6.02166802e-02, ...,\n",
+       "                         -3.96643096e-04, -9.76049807e-03,  6.58039004e-03],\n",
+       "                        [-2.68425737e-02,  2.93749329e-02,  2.32460052e-02, ...,\n",
+       "                          2.81376857e-02,  1.71583111e-03,  4.04979177e-02]],\n",
+       "                \n",
+       "                       [[ 5.99081703e-02,  1.32145938e-02, -1.37950107e-02, ...,\n",
+       "                          1.58467181e-02,  2.21179631e-02, -3.10591478e-02],\n",
+       "                        [-1.04912473e-02, -3.39366794e-02,  4.61946102e-03, ...,\n",
+       "                         -2.24291924e-02, -1.43401511e-02,  1.38219623e-02],\n",
+       "                        [-1.01273423e-02,  1.48381582e-02, -4.33605276e-02, ...,\n",
+       "                          2.07444225e-02, -2.31453162e-02,  2.67610997e-02],\n",
+       "                        ...,\n",
+       "                        [-1.47811165e-02,  5.50152846e-02,  2.50921212e-02, ...,\n",
+       "                          4.82778735e-02,  1.85099486e-02, -7.27660023e-03],\n",
+       "                        [ 5.49992770e-02,  4.21824865e-02,  3.78878461e-03, ...,\n",
+       "                          1.14455875e-02,  4.07072529e-02,  4.62389104e-02],\n",
+       "                        [ 1.08908974e-02,  3.28515598e-05,  1.69772115e-02, ...,\n",
+       "                         -7.30852596e-03, -4.23545465e-02, -5.55225089e-03]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-5.12910634e-03,  2.84914747e-02, -2.16970164e-02, ...,\n",
+       "                          1.09091457e-02, -2.34313798e-03,  7.27258846e-02],\n",
+       "                        [ 1.71632618e-02,  2.59486139e-02,  6.42891973e-02, ...,\n",
+       "                          8.23925342e-03, -1.25392321e-02, -4.27715927e-02],\n",
+       "                        [ 6.47857040e-02, -1.11361174e-02, -1.06392875e-02, ...,\n",
+       "                          4.77908319e-03,  6.14560097e-02,  4.98344228e-02],\n",
+       "                        ...,\n",
+       "                        [-1.60309952e-02,  2.19550282e-02, -1.62355490e-02, ...,\n",
+       "                         -1.53448032e-02,  2.50068977e-02, -1.37609430e-02],\n",
+       "                        [ 1.28832795e-02, -6.27421066e-02, -1.28271915e-02, ...,\n",
+       "                         -1.47589855e-02,  4.49947305e-02, -3.00725386e-03],\n",
+       "                        [ 4.96148095e-02, -2.32065357e-02,  8.94444250e-03, ...,\n",
+       "                          5.69443498e-03, -5.21871001e-02,  1.48959951e-02]],\n",
+       "                \n",
+       "                       [[-2.43751667e-02, -2.63015311e-02, -9.91073903e-04, ...,\n",
+       "                          5.19807525e-02, -3.73826288e-02, -2.58061383e-02],\n",
+       "                        [ 1.18823745e-03, -2.27057375e-02,  3.20175011e-03, ...,\n",
+       "                          9.23438463e-03, -7.12416694e-03, -5.15584322e-03],\n",
+       "                        [ 2.86849737e-02, -4.74519283e-02, -3.00998576e-02, ...,\n",
+       "                         -6.85654283e-02,  2.83939075e-02,  5.74304946e-02],\n",
+       "                        ...,\n",
+       "                        [ 9.82065499e-03, -2.29216348e-02,  1.66053511e-02, ...,\n",
+       "                          2.80485600e-02, -1.46161458e-02,  4.36083637e-02],\n",
+       "                        [ 1.72685310e-02, -2.72968132e-02,  4.18808758e-02, ...,\n",
+       "                          5.22726169e-03,  7.23373517e-02,  7.67718954e-03],\n",
+       "                        [-6.72384957e-03, -3.01094428e-02, -2.62498809e-03, ...,\n",
+       "                         -3.76314186e-02, -3.26726474e-02,  5.65500148e-02]],\n",
+       "                \n",
+       "                       [[ 3.71731184e-02, -2.73698959e-02, -5.21483691e-03, ...,\n",
+       "                         -2.77282223e-02,  3.19673494e-02, -1.73348412e-02],\n",
+       "                        [-2.62228353e-03,  1.15231602e-02, -1.73508134e-02, ...,\n",
+       "                          1.22574195e-02, -1.99704338e-02, -2.80665662e-02],\n",
+       "                        [ 1.84773095e-02, -6.69627450e-03, -3.08147967e-02, ...,\n",
+       "                         -3.48117203e-03,  1.08470665e-02,  9.13256314e-03],\n",
+       "                        ...,\n",
+       "                        [ 3.78374979e-02, -6.28762180e-04, -2.29029153e-02, ...,\n",
+       "                          1.84090305e-02,  5.42607829e-02,  1.34296734e-02],\n",
+       "                        [-1.68974604e-02, -6.14933344e-03, -2.86198426e-02, ...,\n",
+       "                          8.02587252e-03,  1.66239664e-02,  2.09994633e-02],\n",
+       "                        [-7.23446459e-02,  3.69328330e-03,  6.00261725e-02, ...,\n",
+       "                          5.20618679e-03, -4.76943627e-02,  1.20505150e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-0.0154241 , -0.02136171,  0.00170994, ..., -0.04621289,\n",
+       "                          0.00897064,  0.0463121 ],\n",
+       "                        [-0.01717931,  0.01112157, -0.00710914, ...,  0.02496267,\n",
+       "                         -0.02168625, -0.04272152],\n",
+       "                        [ 0.01171657, -0.01287686,  0.01773049, ..., -0.01829099,\n",
+       "                          0.02109   , -0.01227092],\n",
+       "                        ...,\n",
+       "                        [-0.00849649,  0.03056782, -0.02829858, ...,  0.03839231,\n",
+       "                         -0.02428488, -0.01989117],\n",
+       "                        [ 0.03086454, -0.02407495, -0.00397067, ..., -0.02522042,\n",
+       "                          0.02546382,  0.04083524],\n",
+       "                        [ 0.0364135 , -0.01701799,  0.01753394, ..., -0.00421321,\n",
+       "                         -0.04532532,  0.00725917]],\n",
+       "                \n",
+       "                       [[-0.04019788, -0.04662199,  0.01315966, ...,  0.00322181,\n",
+       "                          0.05691342,  0.00376351],\n",
+       "                        [-0.03829328, -0.03602795,  0.02943544, ...,  0.03456193,\n",
+       "                          0.01103387,  0.00689813],\n",
+       "                        [ 0.01527943,  0.00088766, -0.02906663, ..., -0.0212947 ,\n",
+       "                          0.01063941, -0.0006206 ],\n",
+       "                        ...,\n",
+       "                        [-0.01832024, -0.00504218,  0.0385666 , ...,  0.00924117,\n",
+       "                         -0.02005848, -0.05142944],\n",
+       "                        [ 0.01042571, -0.00353254, -0.02857197, ...,  0.00440118,\n",
+       "                          0.00138613,  0.05051938],\n",
+       "                        [-0.01989467, -0.02315113, -0.01396444, ...,  0.01349834,\n",
+       "                         -0.03227997, -0.00757772]],\n",
+       "                \n",
+       "                       [[-0.03354385,  0.00472513, -0.00769798, ..., -0.00885564,\n",
+       "                          0.00580721,  0.00488673],\n",
+       "                        [ 0.00019211, -0.05568425,  0.03763834, ...,  0.01199987,\n",
+       "                          0.05336869,  0.00097181],\n",
+       "                        [ 0.01217039, -0.01985674, -0.02567776, ...,  0.01783625,\n",
+       "                          0.01716065, -0.0082099 ],\n",
+       "                        ...,\n",
+       "                        [-0.00518826,  0.01263819,  0.0485655 , ..., -0.00851737,\n",
+       "                         -0.00549572,  0.00633934],\n",
+       "                        [-0.00375161, -0.00891478, -0.04307966, ...,  0.01984667,\n",
+       "                         -0.02368173,  0.03147876],\n",
+       "                        [-0.06817975,  0.01210132, -0.0452972 , ...,  0.0040069 ,\n",
+       "                         -0.03429648, -0.00730973]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.02184511,  0.00679431, -0.03424827, ..., -0.0324767 ,\n",
+       "                         -0.03337568, -0.02098824],\n",
+       "                        [ 0.00526736,  0.01765759, -0.00150187, ...,  0.01563913,\n",
+       "                         -0.03712524, -0.04228941],\n",
+       "                        [ 0.00287891,  0.01557054,  0.03291737, ...,  0.0284601 ,\n",
+       "                         -0.03523739, -0.04916026],\n",
+       "                        ...,\n",
+       "                        [ 0.0726782 ,  0.01572193,  0.01749741, ..., -0.0704402 ,\n",
+       "                          0.02775858,  0.01285747],\n",
+       "                        [-0.05291403,  0.0512777 , -0.0159433 , ..., -0.02398926,\n",
+       "                         -0.02968781,  0.03079283],\n",
+       "                        [ 0.02697434, -0.05755222, -0.00289774, ...,  0.04506145,\n",
+       "                          0.004663  ,  0.02585066]],\n",
+       "                \n",
+       "                       [[-0.00757567, -0.01126878, -0.02642928, ..., -0.03176008,\n",
+       "                         -0.01499557,  0.04133096],\n",
+       "                        [-0.01980947,  0.01605221, -0.00517764, ...,  0.05347731,\n",
+       "                         -0.05864521, -0.02187834],\n",
+       "                        [-0.02866621,  0.06634904,  0.02014033, ...,  0.06080866,\n",
+       "                         -0.03863212,  0.00922127],\n",
+       "                        ...,\n",
+       "                        [ 0.00711835,  0.03246192, -0.02572215, ...,  0.01283702,\n",
+       "                          0.03169347, -0.01601929],\n",
+       "                        [-0.00215667,  0.0053453 , -0.01257901, ..., -0.02509351,\n",
+       "                         -0.00632794, -0.03124427],\n",
+       "                        [ 0.01211728,  0.00876393, -0.02041848, ..., -0.02124933,\n",
+       "                          0.01459261, -0.00189419]],\n",
+       "                \n",
+       "                       [[ 0.0405766 , -0.02296813, -0.02817863, ...,  0.01705168,\n",
+       "                         -0.01035196, -0.0244919 ],\n",
+       "                        [-0.02430458, -0.03143776,  0.00675427, ...,  0.02892111,\n",
+       "                         -0.03539396,  0.0230977 ],\n",
+       "                        [-0.04200551, -0.06123465, -0.05325764, ...,  0.05219106,\n",
+       "                         -0.03404982, -0.02000758],\n",
+       "                        ...,\n",
+       "                        [-0.00871374,  0.03963133, -0.01728675, ..., -0.08522114,\n",
+       "                          0.02565349, -0.04237581],\n",
+       "                        [-0.04688184,  0.00770911, -0.03921608, ..., -0.01087793,\n",
+       "                         -0.01175969,  0.04221232],\n",
+       "                        [-0.049819  , -0.0142605 ,  0.02277326, ...,  0.011447  ,\n",
+       "                          0.01668214,  0.02802994]]], dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.40716648,  0.40576845,  0.39812824, ..., -0.40593734,\n",
+       "                          0.4078691 ,  0.40172875],\n",
+       "                        [ 0.38636172, -0.39008147,  0.3933755 , ...,  0.3955923 ,\n",
+       "                         -0.39074385,  0.3821965 ],\n",
+       "                        [ 0.39197102, -0.37414056,  0.38462132, ..., -0.3784486 ,\n",
+       "                          0.37449127,  0.3882801 ],\n",
+       "                        ...,\n",
+       "                        [-0.37871185, -0.38042605,  0.37447634, ...,  0.39369246,\n",
+       "                          0.36104998,  0.39049906],\n",
+       "                        [ 0.354122  ,  0.34075758,  0.34114447, ...,  0.33195916,\n",
+       "                          0.33932644,  0.33547738],\n",
+       "                        [-0.31507498,  0.33297104, -0.31998354, ..., -0.31302354,\n",
+       "                         -0.3355336 ,  0.3482901 ]],\n",
+       "                \n",
+       "                       [[ 0.3199213 ,  0.31403384,  0.32980934, ..., -0.34518468,\n",
+       "                          0.34063518,  0.33515075],\n",
+       "                        [ 0.31984913, -0.32108593,  0.32787293, ...,  0.33512378,\n",
+       "                         -0.3233186 ,  0.32992056],\n",
+       "                        [ 0.34243986, -0.3262791 ,  0.3039921 , ..., -0.3159503 ,\n",
+       "                          0.2925109 ,  0.3018358 ],\n",
+       "                        ...,\n",
+       "                        [-0.30164126, -0.3064998 ,  0.31280872, ...,  0.3158512 ,\n",
+       "                          0.31490564,  0.28778085],\n",
+       "                        [ 0.3283429 ,  0.3271414 ,  0.34931543, ...,  0.3033215 ,\n",
+       "                          0.33356848,  0.30767712],\n",
+       "                        [-0.2645189 ,  0.27556178, -0.26288036, ..., -0.24751008,\n",
+       "                         -0.2629664 ,  0.26435322]],\n",
+       "                \n",
+       "                       [[ 0.291087  ,  0.28982708,  0.28505024, ..., -0.2799747 ,\n",
+       "                          0.30001864,  0.2730273 ],\n",
+       "                        [ 0.26279756, -0.30112368,  0.29176798, ...,  0.2769896 ,\n",
+       "                         -0.29098928,  0.26730642],\n",
+       "                        [ 0.29452854, -0.29852226,  0.28637505, ..., -0.2947532 ,\n",
+       "                          0.2799103 ,  0.28863603],\n",
+       "                        ...,\n",
+       "                        [-0.2758026 , -0.26701498,  0.28453207, ...,  0.2795585 ,\n",
+       "                          0.27189273,  0.2507327 ],\n",
+       "                        [ 0.26728618,  0.26869908,  0.28794307, ...,  0.25227395,\n",
+       "                          0.2626167 ,  0.24173735],\n",
+       "                        [-0.23962979,  0.23545188, -0.2417576 , ..., -0.23906739,\n",
+       "                         -0.2343389 ,  0.23448807]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-0.00966584,  0.00096837, -0.02064038, ...,  0.01187884,\n",
+       "                         -0.01537259, -0.01701293],\n",
+       "                        [ 0.03537149, -0.02922641,  0.03284383, ...,  0.03100542,\n",
+       "                         -0.03081715,  0.00767527],\n",
+       "                        [-0.01367592,  0.0145938 , -0.01784269, ...,  0.02510932,\n",
+       "                         -0.02217818, -0.02652539],\n",
+       "                        ...,\n",
+       "                        [ 0.0027559 ,  0.01740869, -0.02969341, ..., -0.02402263,\n",
+       "                         -0.01643083, -0.00846119],\n",
+       "                        [-0.01906268, -0.00594951,  0.00351497, ..., -0.0045603 ,\n",
+       "                         -0.0026327 ,  0.00152499],\n",
+       "                        [-0.03041004,  0.02467696, -0.03267419, ..., -0.03226134,\n",
+       "                         -0.05339084,  0.04969552]],\n",
+       "                \n",
+       "                       [[ 0.00085549,  0.01244663,  0.01348209, ..., -0.00475915,\n",
+       "                          0.01295181,  0.01015476],\n",
+       "                        [ 0.01858704, -0.01860221,  0.00510187, ...,  0.02715912,\n",
+       "                         -0.01002228,  0.00621207],\n",
+       "                        [ 0.01918229,  0.00679111, -0.01300194, ..., -0.00634295,\n",
+       "                          0.00527138,  0.01043263],\n",
+       "                        ...,\n",
+       "                        [ 0.01595129,  0.00533315,  0.00275164, ..., -0.00058782,\n",
+       "                          0.01323795,  0.01409637],\n",
+       "                        [ 0.01785758, -0.00554279, -0.00474615, ..., -0.00798881,\n",
+       "                          0.0170826 , -0.00645886],\n",
+       "                        [ 0.00754235, -0.00442841,  0.00134518, ...,  0.00847297,\n",
+       "                          0.00621545,  0.00697028]],\n",
+       "                \n",
+       "                       [[ 0.01857087, -0.00343152, -0.00287611, ..., -0.00269689,\n",
+       "                          0.01138329,  0.01040243],\n",
+       "                        [-0.00155393, -0.01449388,  0.01091028, ...,  0.01365481,\n",
+       "                         -0.01510941,  0.00288129],\n",
+       "                        [ 0.00766992, -0.0148193 , -0.00887977, ..., -0.0128723 ,\n",
+       "                          0.01526615,  0.01719172],\n",
+       "                        ...,\n",
+       "                        [-0.03175353, -0.02803851,  0.02470523, ...,  0.02021142,\n",
+       "                          0.04161043,  0.02514303],\n",
+       "                        [ 0.00685295,  0.01218422,  0.02265075, ...,  0.01639694,\n",
+       "                          0.01010866,  0.02989644],\n",
+       "                        [-0.00554112, -0.00560751,  0.02870623, ...,  0.01522168,\n",
+       "                          0.00846885, -0.00057995]]], dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-0.41091743, -0.39703333, -0.3787934 ,  0.39795482,  0.40357172,\n",
+       "                        -0.40281782, -0.41370422, -0.4099608 ,  0.39989063,  0.4036594 ,\n",
+       "                        -0.3861448 , -0.40617776],\n",
+       "                       [-0.3994995 ,  0.39342538, -0.39707455, -0.38800818, -0.39609486,\n",
+       "                        -0.41212624, -0.3968884 , -0.3986293 ,  0.40980852, -0.40389988,\n",
+       "                         0.39750007, -0.39903447],\n",
+       "                       [-0.4281001 ,  0.42487082, -0.4144221 , -0.42607158,  0.4272242 ,\n",
+       "                         0.42541218, -0.42733738, -0.4232606 , -0.42850807,  0.41737798,\n",
+       "                        -0.42221972, -0.41712043],\n",
+       "                       [-0.07753266, -0.08413776, -0.10196105,  0.06933961, -0.09252501,\n",
+       "                         0.06681735,  0.07503854,  0.08201353, -0.07535568,  0.08145013,\n",
+       "                         0.0821331 ,  0.0635386 ],\n",
+       "                       [-0.37799704,  0.391212  ,  0.38612953,  0.38402295, -0.37795395,\n",
+       "                         0.39440656, -0.38802493,  0.39030483,  0.38115305, -0.40690652,\n",
+       "                         0.3750855 , -0.38593653],\n",
+       "                       [-0.09539425,  0.08643065,  0.072628  , -0.11199744, -0.12268147,\n",
+       "                        -0.11589758, -0.10698763, -0.10850427, -0.11080333, -0.00211119,\n",
+       "                         0.1037788 , -0.07428905],\n",
+       "                       [ 0.1193511 , -0.11804518,  0.11180906, -0.13487288, -0.23671259,\n",
+       "                        -0.16047317,  0.14368586,  0.05518241, -0.20675474, -0.04652565,\n",
+       "                         0.08266887,  0.10164189],\n",
+       "                       [-0.38380483,  0.38831097, -0.38232616,  0.38219568,  0.383948  ,\n",
+       "                         0.39362624,  0.3941855 , -0.39409056, -0.4030941 , -0.39971116,\n",
+       "                        -0.3981465 , -0.39881432],\n",
+       "                       [-0.3099356 , -0.31265897,  0.3193186 , -0.31829622,  0.32524088,\n",
+       "                        -0.31574857, -0.3168675 ,  0.30564085,  0.3218244 , -0.32326233,\n",
+       "                        -0.32111323,  0.3102204 ],\n",
+       "                       [-0.4212419 , -0.42001873, -0.41639826,  0.4133891 ,  0.42399213,\n",
+       "                        -0.40664238,  0.39729682, -0.41771716, -0.39906105,  0.40661538,\n",
+       "                        -0.41407037, -0.42145047],\n",
+       "                       [ 0.1267855 , -0.13117962,  0.17548735, -0.08526026, -0.13567473,\n",
+       "                         0.17726924, -0.05819062, -0.18689696, -0.17538345, -0.13423504,\n",
+       "                        -0.10781161, -0.10340425],\n",
+       "                       [-0.36864135, -0.35940742, -0.35618803, -0.35787508,  0.3575697 ,\n",
+       "                        -0.3574569 , -0.3538487 ,  0.3440898 ,  0.3565024 , -0.3692214 ,\n",
+       "                        -0.36304694,  0.37657958],\n",
+       "                       [ 0.3814958 , -0.38268888, -0.3919121 ,  0.3862683 , -0.3842662 ,\n",
+       "                         0.37994033, -0.37854648,  0.37619665,  0.38032112,  0.37548965,\n",
+       "                         0.3858773 , -0.38589865],\n",
+       "                       [ 0.36513856,  0.37049237, -0.38507372,  0.38773128,  0.3896943 ,\n",
+       "                         0.38529888, -0.38293883,  0.38670814, -0.37630308, -0.3852462 ,\n",
+       "                        -0.38168323, -0.36389014],\n",
+       "                       [-0.35706925, -0.3685492 , -0.36063698, -0.37230328,  0.3733398 ,\n",
+       "                        -0.36614853, -0.35917693,  0.37010276,  0.3742366 , -0.3623095 ,\n",
+       "                        -0.35129878, -0.36304602],\n",
+       "                       [ 0.26836962, -0.2784579 ,  0.27416602,  0.25678456,  0.27024218,\n",
+       "                        -0.25554377, -0.26284674,  0.25679955,  0.26513654,  0.256254  ,\n",
+       "                         0.27064562, -0.26481283]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-0.07500667, -0.08196688, -0.09829494,  0.08887871,  0.08919983,\n",
+       "                        -0.07611736, -0.09272641, -0.08778842,  0.0928647 ,  0.10149004,\n",
+       "                        -0.08891256, -0.07898947],\n",
+       "                       [-0.06834277,  0.07726638, -0.1019414 , -0.07936464, -0.07272576,\n",
+       "                        -0.09620529, -0.08719102, -0.09573347,  0.09898835, -0.07499579,\n",
+       "                         0.08524351, -0.10087925],\n",
+       "                       [ 0.00965925,  0.02427299, -0.00345065,  0.00730649, -0.02419891,\n",
+       "                         0.0209785 ,  0.00397648, -0.00956057, -0.01082321, -0.00767106,\n",
+       "                        -0.03438235, -0.00838221],\n",
+       "                       [-0.08530877, -0.04656003, -0.02000831,  0.09045035, -0.06728352,\n",
+       "                         0.08749081,  0.04640979,  0.07363399, -0.05163037,  0.08810713,\n",
+       "                         0.08202825,  0.10457424],\n",
+       "                       [-0.13564268,  0.14556517,  0.13971709,  0.13047284, -0.14067452,\n",
+       "                         0.1199011 , -0.11722513,  0.14309591,  0.1414378 , -0.13006493,\n",
+       "                         0.13093708, -0.13142247],\n",
+       "                       [-0.12929264,  0.14353621,  0.12598464, -0.08372255, -0.12269616,\n",
+       "                         0.12652738, -0.11513762, -0.11615187, -0.11035014, -0.1242417 ,\n",
+       "                        -0.10535961, -0.1262374 ],\n",
+       "                       [ 0.19117779, -0.13589805,  0.1352441 , -0.20463352,  0.08610608,\n",
+       "                        -0.1680213 ,  0.03736984,  0.15758243, -0.19908512, -0.1283229 ,\n",
+       "                         0.19029246,  0.19510667],\n",
+       "                       [-0.17444994,  0.18031645, -0.17730455,  0.19382964,  0.18292345,\n",
+       "                         0.18134804,  0.16650024, -0.16646932, -0.19650623, -0.16654335,\n",
+       "                        -0.20469052, -0.1899635 ],\n",
+       "                       [-0.08151194, -0.07332364,  0.05824054, -0.04681879,  0.08355903,\n",
+       "                        -0.06515411, -0.07147256,  0.05490229,  0.06638666, -0.05144802,\n",
+       "                        -0.05463661,  0.06513254],\n",
+       "                       [-0.07129031, -0.08209192, -0.07281575,  0.09461285,  0.08633045,\n",
+       "                        -0.07700296,  0.08106499, -0.06870469, -0.07736162,  0.07991602,\n",
+       "                        -0.08244774, -0.0813574 ],\n",
+       "                       [ 0.09168738, -0.14998332,  0.13085112, -0.1581326 , -0.16370456,\n",
+       "                         0.18202457, -0.15734208, -0.11138753, -0.14053495, -0.06981163,\n",
+       "                        -0.10164346, -0.17347746],\n",
+       "                       [-0.14228927, -0.15764919, -0.15668295, -0.17511848,  0.15683635,\n",
+       "                        -0.13297205, -0.13305731,  0.13137904,  0.14111319, -0.1575835 ,\n",
+       "                        -0.14276572,  0.13538426],\n",
+       "                       [ 0.02495499, -0.00631264, -0.00728494, -0.00878906,  0.01900311,\n",
+       "                         0.01417752, -0.01053768,  0.00572799,  0.01857267,  0.01430714,\n",
+       "                         0.01573708, -0.01450025],\n",
+       "                       [ 0.05821129,  0.04888328, -0.04329408,  0.04478474,  0.05833419,\n",
+       "                         0.04056882, -0.03235751,  0.04915995, -0.11113477, -0.04580541,\n",
+       "                        -0.03836249, -0.05638641],\n",
+       "                       [-0.1507673 , -0.15314901, -0.16472816, -0.14931056,  0.14615384,\n",
+       "                        -0.15893032, -0.17392617,  0.1446304 ,  0.15037927, -0.16776474,\n",
+       "                        -0.1605527 , -0.1688422 ],\n",
+       "                       [ 0.11285035, -0.11458515,  0.12181724,  0.11344904,  0.12769765,\n",
+       "                        -0.10807306, -0.10855875,  0.11906493,  0.10473388,  0.12991548,\n",
+       "                         0.11295414, -0.11610106]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 5.12855593e-03,  6.66835904e-03, -2.13512196e-03,\n",
+       "                          2.88987858e-03, -1.71656208e-03,  1.58670377e-02,\n",
+       "                         -8.73166951e-04,  4.74393461e-03, -6.72416575e-03,\n",
+       "                         -1.24936868e-02,  4.09317249e-03,  1.94797525e-03],\n",
+       "                        [-5.01133036e-03,  3.40523687e-03, -2.42055190e-04,\n",
+       "                         -1.12740491e-02, -5.46351587e-03,  9.71018616e-03,\n",
+       "                         -7.15655321e-03, -4.95742424e-05, -4.58561257e-03,\n",
+       "                          1.56312622e-03,  5.08005917e-03, -6.85218209e-03],\n",
+       "                        [ 1.85134544e-04,  7.57252425e-03, -2.41664107e-04,\n",
+       "                         -4.85895574e-03, -1.31634222e-02, -2.05327684e-04,\n",
+       "                          1.36911019e-03,  4.77854890e-04,  3.17802397e-03,\n",
+       "                          1.11254193e-02,  3.38124810e-03,  1.97687116e-03],\n",
+       "                        [-7.58354180e-03, -1.09749660e-03,  1.87258364e-03,\n",
+       "                         -4.39679855e-03,  1.35056898e-02,  9.37500736e-04,\n",
+       "                         -6.28093816e-03,  2.51053181e-03, -3.76467688e-05,\n",
+       "                         -9.07093473e-03, -6.08211616e-03, -6.79496210e-03],\n",
+       "                        [ 2.59081926e-03, -5.83294872e-03, -1.54970074e-02,\n",
+       "                         -6.76365569e-04, -1.25865443e-02, -5.09684067e-03,\n",
+       "                          7.90737278e-04, -4.44856618e-04,  4.82388365e-04,\n",
+       "                          1.59114788e-04,  3.07379081e-03, -8.17673746e-03],\n",
+       "                        [-4.96430276e-03, -5.67409629e-03, -6.89030997e-03,\n",
+       "                          1.39006656e-02,  2.89973710e-03,  6.23332476e-03,\n",
+       "                          1.70481708e-02, -4.40335087e-03,  3.05335340e-03,\n",
+       "                          5.17270155e-03, -7.58902961e-03, -8.06333311e-03],\n",
+       "                        [ 7.67198333e-04,  8.52348865e-04,  1.19951833e-02,\n",
+       "                          1.18750166e-02, -1.38447862e-02,  2.53724447e-03,\n",
+       "                         -4.56267176e-03, -1.47879776e-02,  3.49962851e-03,\n",
+       "                          8.95409938e-03, -1.22253262e-02,  5.87659096e-03],\n",
+       "                        [-6.02274993e-03,  1.07724117e-02, -1.92951858e-02,\n",
+       "                         -8.73806793e-03,  4.29179054e-03,  1.78715102e-02,\n",
+       "                          2.29572807e-03, -9.07022879e-03,  3.62627744e-03,\n",
+       "                         -1.49977184e-03,  8.06051947e-04,  7.52089405e-03],\n",
+       "                        [-8.56387801e-03, -5.52490819e-03, -6.07694313e-03,\n",
+       "                          7.73270428e-03,  3.36591294e-03,  1.33520318e-02,\n",
+       "                          5.79763716e-03, -6.06268551e-03, -1.30867837e-02,\n",
+       "                         -5.73166646e-03, -8.60142335e-03, -3.28946603e-03],\n",
+       "                        [ 7.07297726e-03,  1.46094672e-02, -3.17050470e-03,\n",
+       "                          4.19184798e-03, -1.07984338e-02,  1.11594601e-02,\n",
+       "                          7.47498544e-03,  6.07205974e-03,  5.49842697e-03,\n",
+       "                         -1.09560159e-03,  6.33720867e-03, -4.09576995e-03],\n",
+       "                        [ 5.19787800e-03, -8.40189401e-03, -6.77535636e-03,\n",
+       "                          6.13030186e-03, -1.95480511e-03, -5.28680300e-03,\n",
+       "                          1.52438283e-02,  6.90290378e-03,  4.62633790e-03,\n",
+       "                          4.37200768e-03, -2.73249880e-03, -4.53076279e-03],\n",
+       "                        [ 1.18563753e-02, -7.14349840e-03, -9.96101461e-03,\n",
+       "                         -9.97988041e-03, -1.24550415e-02,  8.09469167e-03,\n",
+       "                         -1.02353562e-02, -1.37576126e-02,  1.24030905e-02,\n",
+       "                          7.50589464e-03, -1.03093951e-03, -1.76431537e-02],\n",
+       "                        [-1.73272891e-03,  1.84512779e-03,  7.85177015e-03,\n",
+       "                          1.12089356e-02,  1.77292023e-02, -6.15275884e-03,\n",
+       "                         -4.45538433e-03, -8.67045391e-03, -1.32132098e-02,\n",
+       "                         -6.60764799e-03, -1.10811731e-02,  1.04815792e-02],\n",
+       "                        [ 1.46891258e-03,  3.11328622e-04, -5.73975593e-03,\n",
+       "                          1.69053266e-03,  1.96011234e-02,  9.96744260e-03,\n",
+       "                          1.91467740e-02, -1.96210332e-02,  3.37434234e-03,\n",
+       "                          1.21225948e-02, -1.80448294e-02,  1.41356736e-02],\n",
+       "                        [ 6.40557474e-03, -2.84241606e-03, -7.86876678e-03,\n",
+       "                          1.00508938e-02, -8.79120640e-03,  1.06285773e-02,\n",
+       "                         -1.45075447e-03,  1.80888642e-02, -3.24608118e-04,\n",
+       "                         -3.15192482e-03, -1.70563918e-03,  1.65305212e-02],\n",
+       "                        [ 1.10242600e-02, -3.45982355e-03,  1.32184075e-02,\n",
+       "                          8.34964495e-03, -7.07727717e-03, -1.78799573e-02,\n",
+       "                          6.51658466e-03, -1.71895437e-02,  3.61713610e-04,\n",
+       "                          1.52124725e-02, -1.45496083e-02,  1.51191978e-02]],\n",
+       "                \n",
+       "                       [[-1.11321360e-02, -1.63758211e-02, -2.79240031e-03,\n",
+       "                          1.23046013e-03,  3.06214509e-03, -1.97326150e-02,\n",
+       "                          4.76867566e-03,  2.46074027e-03, -1.80071164e-02,\n",
+       "                         -1.91356055e-02,  6.95738010e-03,  5.85925626e-03],\n",
+       "                        [ 6.20611990e-03, -3.06281913e-03,  1.18250530e-02,\n",
+       "                          9.03544668e-03,  1.59206858e-03, -4.93871700e-03,\n",
+       "                          1.57426335e-02, -1.17017841e-02, -1.05403112e-02,\n",
+       "                          1.77778918e-02, -5.04181953e-03,  1.92524102e-02],\n",
+       "                        [ 1.81273408e-02, -9.59337596e-03, -1.43720107e-02,\n",
+       "                          7.42731337e-03, -3.49794142e-03, -9.08243284e-03,\n",
+       "                         -1.26554919e-02, -3.92393861e-03,  1.62129849e-02,\n",
+       "                          7.93737359e-03, -1.39523549e-02, -1.71343330e-02],\n",
+       "                        [ 3.50867095e-03,  6.12853142e-03,  8.60079890e-04,\n",
+       "                          1.76838064e-03, -4.32498148e-03,  2.44022580e-03,\n",
+       "                         -4.61555785e-03,  9.83264670e-03, -6.55062916e-03,\n",
+       "                          5.09076891e-03, -1.98914651e-02, -5.13289962e-03],\n",
+       "                        [ 6.31234143e-03,  8.19841691e-04, -6.28800038e-03,\n",
+       "                          1.69438659e-03,  1.20353850e-03, -9.52797756e-03,\n",
+       "                         -1.89838856e-02,  1.42058097e-02, -4.50487685e-04,\n",
+       "                         -9.68337990e-04,  1.36484858e-02,  9.62200761e-03],\n",
+       "                        [ 8.21296405e-03,  8.77249148e-03,  2.57751485e-03,\n",
+       "                         -8.44736118e-03, -5.86496620e-03,  1.31070465e-02,\n",
+       "                          7.14863278e-03,  1.93205802e-03, -2.81021884e-03,\n",
+       "                          4.10962198e-03, -5.84370550e-03, -6.91601690e-06],\n",
+       "                        [ 1.39592336e-02, -5.59413061e-03, -5.74240135e-03,\n",
+       "                         -1.05634805e-04, -2.84640607e-03, -2.32673506e-03,\n",
+       "                          9.66272608e-04, -1.92520185e-03, -3.76285845e-03,\n",
+       "                         -3.61609296e-03,  4.17765416e-03,  1.25582563e-03],\n",
+       "                        [ 6.42140489e-03,  1.66140951e-03,  5.25343278e-03,\n",
+       "                          1.70482527e-02, -1.96832535e-03,  1.53658502e-02,\n",
+       "                         -2.14385771e-04, -7.87696522e-03,  6.28546812e-03,\n",
+       "                          1.02956034e-02,  7.89953396e-04, -7.44149368e-03],\n",
+       "                        [ 8.59444775e-03,  1.04654897e-02, -1.51982820e-02,\n",
+       "                         -4.85809706e-03, -1.21037243e-02, -8.17074534e-03,\n",
+       "                         -4.50816192e-03,  1.44476595e-03, -3.60425352e-03,\n",
+       "                         -4.66537400e-04,  3.09814094e-03, -6.37923460e-03],\n",
+       "                        [ 3.38344625e-03,  2.68637226e-03, -5.64868236e-03,\n",
+       "                          1.26324641e-03, -7.97617622e-03,  5.28610544e-04,\n",
+       "                         -4.31548152e-03, -6.69596763e-03, -1.75163466e-02,\n",
+       "                         -5.28662791e-03,  9.55967978e-03,  9.75693483e-03],\n",
+       "                        [ 1.30861154e-04,  6.43794285e-03,  1.71945419e-03,\n",
+       "                          1.61401704e-02, -1.84416526e-03, -1.29076012e-04,\n",
+       "                         -1.17621776e-02, -1.04355123e-02, -3.95264244e-03,\n",
+       "                         -7.07765389e-03,  4.39857272e-03, -8.02241918e-03],\n",
+       "                        [ 5.07055409e-03,  1.14876851e-02, -3.46192089e-03,\n",
+       "                          8.74145981e-03,  1.24274231e-02,  1.40672289e-02,\n",
+       "                         -1.83607882e-03,  1.69887617e-02,  1.91973560e-02,\n",
+       "                          1.04817152e-02, -2.31551332e-03,  2.96735088e-04],\n",
+       "                        [ 4.91836760e-03, -3.66516784e-03,  1.08165350e-02,\n",
+       "                          4.64872131e-03,  7.96078052e-03, -7.13564875e-03,\n",
+       "                          3.62745929e-03, -3.65488022e-03,  7.63897225e-03,\n",
+       "                         -1.11391963e-02, -1.00904759e-02,  1.55993924e-02],\n",
+       "                        [ 6.69008680e-03,  4.25420469e-03,  5.41883986e-03,\n",
+       "                         -1.11117018e-02, -5.68970514e-04, -3.17663234e-03,\n",
+       "                          5.20493975e-03, -8.93818680e-03, -3.28786694e-03,\n",
+       "                          7.41777522e-03,  7.49085750e-03, -1.82077661e-02],\n",
+       "                        [ 4.80132032e-04,  9.23585985e-03,  1.92046426e-02,\n",
+       "                          6.56831032e-03,  1.44117558e-02, -7.02518446e-04,\n",
+       "                         -5.83477318e-03, -6.96717296e-03, -5.12858434e-03,\n",
+       "                         -1.04593607e-02,  1.00317681e-02,  1.24781048e-02],\n",
+       "                        [-7.89445825e-03,  9.21254233e-03, -1.85428406e-04,\n",
+       "                         -3.90535640e-03, -4.18059342e-03,  8.93989578e-03,\n",
+       "                          3.41365172e-04,  1.69165637e-02,  4.05886769e-03,\n",
+       "                          9.71019268e-03, -1.22467382e-02,  1.77962682e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0064669 , 1.0818937 , 1.0529696 , 1.027011  , 1.072284  ,\n",
+       "                         1.0306487 , 0.9886776 , 0.98933357, 1.0080134 , 1.0092249 ,\n",
+       "                         1.0112736 , 1.0502064 , 0.99890935, 1.0473876 , 1.0330958 ,\n",
+       "                         1.0027466 , 1.0600146 , 1.012573  , 1.0349828 , 1.0181065 ,\n",
+       "                         1.062332  , 1.04784   , 0.9965813 , 0.9922533 , 1.0002353 ,\n",
+       "                         1.0056747 , 1.0608792 , 1.0256199 , 1.0487269 , 1.0022048 ,\n",
+       "                         1.0130595 , 1.009154  , 1.035093  , 1.0225183 , 1.0258716 ,\n",
+       "                         1.0255703 , 1.0336466 , 1.0641304 , 0.98713547, 1.005409  ,\n",
+       "                         1.037388  , 1.0334266 , 1.0115819 , 1.0451132 , 1.0127302 ,\n",
+       "                         1.026768  , 1.0033892 , 1.0719266 , 1.0142633 , 1.0064338 ,\n",
+       "                         1.0061831 , 1.082493  , 1.0613683 , 1.0165426 , 1.0044955 ,\n",
+       "                         1.0308001 , 1.0337422 , 1.0392753 , 1.0404853 , 1.061793  ,\n",
+       "                         1.0579301 , 1.0033402 , 0.9876382 , 0.9945765 , 1.0268649 ,\n",
+       "                         1.0322272 , 1.0105722 , 1.0436976 , 1.0327612 , 1.0217149 ,\n",
+       "                         1.0504173 , 0.9959419 , 1.0166682 , 1.0405486 , 1.0284251 ,\n",
+       "                         1.027506  , 1.0002648 , 1.0585668 , 1.0035429 , 1.0180401 ,\n",
+       "                         1.0099533 , 0.9838198 , 0.9946292 , 1.0244538 , 1.0183443 ,\n",
+       "                         1.0445744 , 1.0509833 , 1.0250286 , 1.0218376 , 0.985047  ,\n",
+       "                         1.0255886 , 1.0078777 , 1.0183403 , 1.0793016 , 1.0312704 ,\n",
+       "                         1.0454726 , 1.0745726 , 1.0386236 , 1.0486016 , 1.0218583 ,\n",
+       "                         1.0054005 , 1.0270458 , 1.0345457 , 1.0044142 , 1.0240374 ,\n",
+       "                         0.98509014, 1.0253175 , 1.0475533 , 1.0341904 , 1.0426164 ,\n",
+       "                         1.0431237 , 0.9964105 , 1.0359719 , 1.0343416 , 1.0255029 ,\n",
+       "                         0.9868464 , 1.0226315 , 1.0204879 , 1.0612466 , 1.0311997 ,\n",
+       "                         1.0315272 , 1.0149676 , 1.0266362 , 1.0051287 , 1.0160166 ,\n",
+       "                         1.0269036 , 0.9695572 , 1.0356328 , 1.0182139 , 0.99365634,\n",
+       "                         1.0248895 , 1.0467223 , 0.99832666, 1.0194186 , 1.0264868 ,\n",
+       "                         1.0457662 , 1.0010631 , 1.0781038 , 1.0366775 , 1.0192181 ,\n",
+       "                         1.0481138 , 1.0250039 , 1.0678422 , 1.0076646 , 1.0355699 ,\n",
+       "                         1.0159997 , 1.0457331 , 1.0366719 , 1.0515347 , 1.0401881 ,\n",
+       "                         1.0367059 , 1.0313339 , 1.004569  , 1.0335464 , 1.0153991 ,\n",
+       "                         0.99057716, 1.078844  , 0.99647516, 1.0546614 , 1.0700475 ,\n",
+       "                         1.0025264 , 1.0526556 , 1.0763507 , 0.9729892 , 0.992836  ,\n",
+       "                         1.0594417 , 1.0317165 , 1.0104476 , 1.0359826 , 1.0358601 ,\n",
+       "                         1.0337919 , 1.0279506 , 1.0117517 , 1.0357476 , 0.9967585 ,\n",
+       "                         1.0524963 , 1.0516102 , 1.035869  , 1.0262779 , 1.0246822 ,\n",
+       "                         0.99776876, 1.0228305 , 1.0323956 , 1.0822434 , 1.0439165 ,\n",
+       "                         1.004725  , 1.0423628 , 1.0363435 , 1.0164104 , 1.0294592 ,\n",
+       "                         1.0298296 , 1.0023874 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.03572559,  0.07052334,  0.04214054, -0.03088334, -0.05456677,\n",
+       "                          0.05488119, -0.00783285,  0.03388336, -0.04526844, -0.04859911,\n",
+       "                         -0.10143859,  0.02883948,  0.03983791, -0.06707199, -0.02181157,\n",
+       "                         -0.02965509, -0.07566714, -0.04532457, -0.06066715,  0.01502714,\n",
+       "                         -0.04262436,  0.03714302, -0.02645871,  0.06151082, -0.02454024,\n",
+       "                          0.02703209,  0.10376223, -0.04253267, -0.01060255,  0.03355165,\n",
+       "                         -0.02753572, -0.03638862,  0.04837547,  0.00728404,  0.02081808,\n",
+       "                          0.07089293,  0.0332068 , -0.04893075, -0.02254294, -0.05787472,\n",
+       "                          0.06663159,  0.01440133,  0.01816812,  0.04664446,  0.04485836,\n",
+       "                         -0.02159609, -0.05356405,  0.05446031, -0.04811412,  0.02603062,\n",
+       "                         -0.02455731,  0.10918348, -0.07446387,  0.02285322,  0.04729371,\n",
+       "                         -0.06004195, -0.06706948,  0.01052909,  0.05317412,  0.06986604,\n",
+       "                         -0.01449101,  0.02433792,  0.04743486, -0.03121328,  0.05618388,\n",
+       "                          0.04716328, -0.02363005, -0.01016761, -0.08208757,  0.05031472,\n",
+       "                          0.01894861,  0.02174053,  0.03442447,  0.05563618,  0.04318314,\n",
+       "                          0.02114048,  0.00857429,  0.07583337,  0.04995118, -0.01893166,\n",
+       "                         -0.05295784, -0.02783245,  0.0001985 ,  0.00630969, -0.04276912,\n",
+       "                          0.05514951, -0.07692855,  0.00204788,  0.02236083, -0.00397996,\n",
+       "                         -0.06290936,  0.0649584 , -0.01276455, -0.00273596,  0.07110768,\n",
+       "                         -0.02371853, -0.02431823, -0.07048386,  0.06340913, -0.05307363,\n",
+       "                          0.05174835,  0.05569284, -0.0364473 ,  0.03883031,  0.04631821,\n",
+       "                         -0.00825793, -0.03373799,  0.02248353, -0.05415484,  0.02037876,\n",
+       "                          0.07150011,  0.0309096 ,  0.01336379, -0.01085599,  0.02313981,\n",
+       "                         -0.02167892,  0.05665489, -0.02289949,  0.00883717, -0.02259299,\n",
+       "                          0.06036956, -0.01272535,  0.07566863, -0.01698468,  0.05676753,\n",
+       "                         -0.03596041,  0.0329265 ,  0.03933702,  0.06527503,  0.00900725,\n",
+       "                         -0.04639523, -0.04539404, -0.07513943,  0.03125531, -0.01435694,\n",
+       "                         -0.05000272, -0.03738052, -0.02647759, -0.014988  , -0.02063022,\n",
+       "                          0.05364346, -0.02731912,  0.08264866, -0.00714785, -0.03687573,\n",
+       "                         -0.00052383,  0.07184311, -0.03491021, -0.05168867, -0.05767809,\n",
+       "                          0.02498916, -0.01734494, -0.0632204 , -0.04646963,  0.00148338,\n",
+       "                         -0.04563425, -0.10136002,  0.01319181, -0.00625894, -0.00598573,\n",
+       "                          0.02463751,  0.06959893, -0.04617108,  0.00143085,  0.0269984 ,\n",
+       "                         -0.03616631,  0.00691976,  0.04255624,  0.05120771,  0.058086  ,\n",
+       "                          0.01832968,  0.03730016, -0.0344684 , -0.07080473, -0.0376507 ,\n",
+       "                          0.03034958,  0.01746695, -0.03656098, -0.0179161 , -0.04996467,\n",
+       "                          0.01110566, -0.0233655 ,  0.02121658,  0.05575675, -0.06921916,\n",
+       "                         -0.03693148, -0.05269073, -0.03594529, -0.09070019, -0.01931166,\n",
+       "                         -0.03299083,  0.06832818], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[ 0.00246047,  0.02135191,  0.00422186, ...,  0.03055698,\n",
+       "                          -0.00743342,  0.0240952 ],\n",
+       "                         [ 0.03629406, -0.02811501,  0.03010121, ...,  0.03152696,\n",
+       "                           0.01973201, -0.01870199],\n",
+       "                         [ 0.00980821, -0.02279299,  0.0098472 , ...,  0.00054256,\n",
+       "                           0.02296435, -0.02869965],\n",
+       "                         ...,\n",
+       "                         [ 0.02188366, -0.01548733,  0.00447983, ..., -0.00616977,\n",
+       "                           0.05187739,  0.0073489 ],\n",
+       "                         [-0.04720765,  0.01410661,  0.00694184, ...,  0.02556819,\n",
+       "                           0.00123452,  0.01772419],\n",
+       "                         [ 0.01116645,  0.03368069, -0.03413522, ..., -0.00785405,\n",
+       "                          -0.01171144, -0.00460553]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([-2.19278969e-03,  6.04699366e-03, -1.53210023e-02, -5.74001996e-03,\n",
+       "                         -5.07295039e-03, -1.25789945e-03,  2.87603051e-03,  9.42181982e-03,\n",
+       "                         -1.67974513e-02,  7.50782108e-03, -1.95889324e-02,  2.44341679e-02,\n",
+       "                          5.60135767e-03,  1.71202272e-02,  9.53060202e-03,  7.83520751e-03,\n",
+       "                          8.63440428e-03, -1.15798693e-02,  5.61433285e-03, -3.61166149e-03,\n",
+       "                         -1.18884696e-02, -1.54542122e-02,  9.97095928e-03,  1.59891341e-02,\n",
+       "                          8.20877962e-03,  5.21820970e-04, -3.66602722e-03, -7.11401692e-03,\n",
+       "                          1.00262100e-02,  3.59447952e-03, -1.16654150e-02, -2.60293309e-04,\n",
+       "                         -3.63240088e-03,  8.41740519e-04,  1.73763093e-02,  1.99245643e-02,\n",
+       "                         -2.23525967e-02,  2.30515469e-02,  1.83117948e-02, -3.47422843e-04,\n",
+       "                          2.32729558e-02, -6.71033049e-03, -4.18689474e-03,  2.22610123e-02,\n",
+       "                          4.92201792e-03,  2.51501203e-02, -2.27775332e-03,  1.47669693e-03,\n",
+       "                          1.04547301e-02,  1.01519590e-02, -1.07629057e-02,  1.65723497e-03,\n",
+       "                          4.11617849e-03,  1.82028804e-02,  1.11566214e-02,  2.30182409e-02,\n",
+       "                         -1.18287141e-02, -2.38776673e-02,  1.21969208e-02,  1.05630159e-02,\n",
+       "                          2.07968522e-02,  5.43673383e-03, -1.74141694e-02, -9.51491389e-03,\n",
+       "                          1.83382593e-02,  1.04319034e-02,  1.55340992e-02,  2.80532939e-03,\n",
+       "                          1.44922861e-03,  1.04811527e-02, -1.18558845e-02,  1.77682750e-03,\n",
+       "                          9.54237767e-03,  1.12899886e-02,  1.25479940e-02,  7.22044287e-03,\n",
+       "                         -1.88595464e-03,  2.17754673e-02,  2.96804262e-03,  1.73219159e-05,\n",
+       "                          1.53760463e-02, -2.00917642e-03,  5.90350828e-04,  7.75832799e-04,\n",
+       "                         -2.07943972e-02, -1.05067808e-02,  1.45246461e-02,  6.77682692e-03,\n",
+       "                          7.37776747e-03, -1.27472728e-02, -2.36441777e-03, -2.67949072e-03,\n",
+       "                          1.64910068e-03,  3.50152217e-02,  4.40310268e-03,  2.08763946e-02,\n",
+       "                          7.27950642e-03, -7.69594964e-03, -2.67414115e-02, -1.70541629e-02,\n",
+       "                         -3.29811405e-03, -7.61077460e-03,  6.73809648e-03,  4.98033408e-03,\n",
+       "                          1.20822787e-02, -1.04412539e-02,  1.53507674e-02,  1.40117342e-02,\n",
+       "                          2.13045012e-02, -1.23152873e-02,  1.39537482e-02,  2.06317306e-02,\n",
+       "                          2.59761652e-03, -1.59729889e-03, -4.10755444e-03,  7.65158795e-03,\n",
+       "                          1.71183832e-02, -7.31218280e-03,  9.15572792e-03, -1.86188314e-02,\n",
+       "                         -6.07075822e-03,  1.29571529e-02,  2.38646772e-02, -1.95070938e-03,\n",
+       "                          6.93639880e-03, -5.59475506e-03,  3.23603139e-03, -2.66886968e-03,\n",
+       "                          2.45580710e-02, -5.12463041e-03,  1.42249130e-02, -1.50085622e-02,\n",
+       "                         -6.45479606e-03,  1.91599261e-02, -1.44467328e-03,  1.05794268e-02,\n",
+       "                         -1.49858743e-02,  4.88797855e-03, -7.21035758e-03, -2.56358199e-02,\n",
+       "                          4.19023709e-04,  6.27954723e-03,  9.93503164e-03,  2.10088044e-02,\n",
+       "                          1.74473505e-02,  1.32214022e-03,  1.55853359e-02, -1.53631857e-02,\n",
+       "                          2.37401165e-02, -1.13086021e-02,  2.39201710e-02, -1.13888904e-02,\n",
+       "                          4.89860214e-03, -6.11251965e-03,  9.56667680e-03,  1.72541924e-02,\n",
+       "                         -1.42011708e-02,  1.03781205e-02, -8.26389762e-04,  7.26381736e-03,\n",
+       "                          1.84223317e-02, -1.47882728e-02,  6.29240228e-03,  7.76841957e-03,\n",
+       "                          3.11127747e-03, -3.21686640e-03, -8.16328917e-03, -6.70107035e-03,\n",
+       "                          2.28692014e-02, -9.22542904e-03,  7.99279381e-03, -1.35028204e-02,\n",
+       "                          7.43754441e-03,  2.49574892e-02,  1.76944025e-03,  1.11684399e-02,\n",
+       "                          1.89606808e-02, -1.34006366e-02, -5.20619750e-03, -5.28418412e-03,\n",
+       "                          9.56782699e-03,  4.95272782e-03,  1.10703101e-03, -2.59877386e-04,\n",
+       "                          1.15246791e-02,  1.81984790e-02,  1.20165003e-02,  1.49773303e-02,\n",
+       "                          6.65980019e-03, -5.50915161e-03,  2.13161446e-02,  1.30873369e-02,\n",
+       "                         -1.28262872e-02,  6.39692508e-03,  5.82733052e-03, -1.44022256e-02,\n",
+       "                          1.71116181e-02,  7.09277578e-03, -2.50236411e-02,  4.06866567e-03,\n",
+       "                          6.94010174e-03,  3.72852175e-03,  3.72777274e-03, -9.53891664e-04,\n",
+       "                          3.03575420e-03, -9.08128731e-03,  2.35900469e-03,  2.54409551e-03,\n",
+       "                          7.85557181e-03,  5.72764222e-03, -1.13477726e-02, -1.97790004e-03,\n",
+       "                         -2.02169698e-02,  1.66139123e-03,  4.42339433e-03,  1.04274824e-02,\n",
+       "                         -4.70428728e-03,  8.31646903e-04, -1.91115867e-03, -1.62475631e-02,\n",
+       "                          1.58297375e-03, -1.50254276e-02,  2.68275064e-04,  1.89033300e-02,\n",
+       "                         -1.06294956e-02,  9.86085087e-03,  9.37867071e-03,  6.53037149e-03,\n",
+       "                          2.60478165e-03, -2.57267803e-02,  2.15005018e-02, -3.40055348e-03,\n",
+       "                         -1.39013445e-02,  2.95173115e-04, -2.36411467e-02,  1.80282339e-04,\n",
+       "                          5.52599877e-03, -8.56333785e-03,  1.01212400e-03,  3.25073600e-02,\n",
+       "                          5.58349118e-03, -5.01703657e-03, -2.30139419e-02, -7.50387181e-03,\n",
+       "                          1.00269197e-02,  1.65834427e-02, -1.76343247e-02,  8.61031283e-03,\n",
+       "                         -2.24650232e-03,  1.96501296e-02,  1.35511039e-02, -1.72223039e-02,\n",
+       "                          3.42590734e-03,  1.64557416e-02, -9.82559938e-03, -5.14447736e-03,\n",
+       "                          2.44647590e-03,  5.59220975e-03,  2.79288404e-02, -3.72134103e-03,\n",
+       "                         -6.33670157e-03,  1.45124113e-02, -2.62766276e-02,  1.49100469e-02,\n",
+       "                          1.68065038e-02,  7.24705495e-03,  2.06217752e-03, -1.12682860e-02,\n",
+       "                          3.12566161e-02,  1.80585291e-02,  5.93927270e-03,  2.72701611e-03,\n",
+       "                          9.70310532e-03,  1.76505558e-02,  1.56975463e-02,  1.30839017e-03,\n",
+       "                         -1.36760985e-02, -5.82931610e-03,  2.37178952e-02,  6.36408245e-03,\n",
+       "                         -8.30591749e-03, -2.83155544e-03, -1.72732286e-02,  2.06037387e-02,\n",
+       "                         -2.75142677e-03,  8.32369551e-03, -1.00701684e-02, -1.60630234e-02,\n",
+       "                          2.36141868e-02, -3.94094363e-03,  2.52855098e-05, -2.81257443e-02,\n",
+       "                          1.24347163e-02,  1.94560941e-02,  2.68202014e-02,  2.89945491e-02,\n",
+       "                          1.17353071e-02, -1.23171899e-02, -1.30154043e-02, -3.62283492e-04,\n",
+       "                          7.18672853e-03,  1.50140692e-02, -3.94091476e-03,  2.59088795e-03,\n",
+       "                          7.08716968e-03, -4.78606299e-03,  1.54908653e-02, -5.57252322e-04,\n",
+       "                          9.48684104e-03,  1.97996795e-02,  1.78096313e-02, -6.88620750e-03,\n",
+       "                          2.58465484e-02,  5.94391953e-03,  2.34638923e-03,  2.98976302e-02,\n",
+       "                          3.56731825e-02, -1.27387010e-02,  1.20613696e-02, -1.44198937e-02,\n",
+       "                         -1.67872403e-02, -5.48574375e-04,  7.29635777e-03, -8.28532875e-03,\n",
+       "                          2.83680565e-04,  2.56444197e-02,  1.48984604e-02, -3.43430380e-04,\n",
+       "                          4.41812212e-03,  1.86183006e-02,  7.07666436e-03,  3.75143392e-03,\n",
+       "                          9.68923140e-03,  2.76730787e-02, -3.37407552e-03,  2.40801903e-03,\n",
+       "                         -1.28472596e-03, -5.40855620e-03, -7.14346534e-04,  1.01167867e-02,\n",
+       "                          3.44231841e-03,  1.92425400e-02, -8.41472019e-03, -1.02022616e-02,\n",
+       "                         -1.02061201e-02,  9.05947702e-04, -6.14283001e-03,  4.40994423e-04,\n",
+       "                         -1.76024865e-02, -1.39886541e-02,  1.95986740e-02,  2.05307566e-02,\n",
+       "                          1.60966927e-04, -1.63520519e-02,  1.70697886e-02,  2.00404339e-02,\n",
+       "                          2.18718946e-02,  2.70666610e-02,  2.73487810e-02, -1.10565051e-02,\n",
+       "                          1.62903816e-02,  1.98205058e-02,  5.71643002e-03, -1.96284540e-02,\n",
+       "                          5.47597371e-03,  1.15929283e-02, -1.57948732e-02,  1.97605533e-03,\n",
+       "                          1.65477523e-03, -5.24721621e-03, -1.28862308e-02,  2.91175768e-02,\n",
+       "                          3.97475623e-03, -8.68490525e-03,  8.40478390e-03, -8.53092875e-03,\n",
+       "                          8.91437568e-03, -8.20621941e-03, -1.69815514e-02, -1.56296149e-03,\n",
+       "                         -1.94094721e-02,  9.14666336e-03, -4.71888436e-03,  5.96455624e-03,\n",
+       "                         -7.23899808e-03, -1.62013900e-02, -8.91631935e-03, -9.16333310e-03,\n",
+       "                          1.36582786e-02, -2.81301048e-02,  1.40030524e-02,  2.21321303e-02,\n",
+       "                          1.70738269e-02, -1.34165427e-02,  9.66804288e-03, -1.41236221e-03,\n",
+       "                         -1.29311462e-03, -1.82988774e-02,  8.06615595e-03,  1.63736492e-02,\n",
+       "                          7.57436035e-03, -1.23931859e-02,  2.11250260e-02,  8.82964674e-03,\n",
+       "                          5.36705414e-03,  9.78771411e-03,  2.97650024e-02,  1.36999404e-02,\n",
+       "                          2.32320745e-02,  1.80442433e-03,  1.46890003e-02,  7.45175406e-03,\n",
+       "                         -2.40189917e-02,  2.32096948e-02,  1.58773493e-02, -1.30231204e-02,\n",
+       "                          1.70866325e-02,  1.14606908e-02, -7.90068973e-03, -3.56196106e-04,\n",
+       "                         -6.42792962e-04,  2.17272229e-02,  7.65779288e-03,  1.05101373e-02,\n",
+       "                          3.35401227e-03,  1.21193146e-02, -7.54443510e-03,  1.46741355e-02,\n",
+       "                          1.48964776e-02,  7.43449712e-03,  2.57233228e-03,  1.05196319e-03,\n",
+       "                          1.60870235e-02, -1.44143356e-04, -7.70768523e-03, -4.54242993e-03,\n",
+       "                          2.23990041e-03,  1.91516653e-02,  1.22645944e-02, -9.79530253e-03,\n",
+       "                          5.54556865e-03,  1.39172201e-03,  1.02477763e-02,  1.17938900e-02,\n",
+       "                          1.09906727e-02, -4.91106976e-03, -2.18414841e-03, -8.83982331e-03,\n",
+       "                          2.20653228e-02,  2.03952175e-02,  1.98832899e-02, -1.55128445e-03,\n",
+       "                         -3.24987195e-04, -2.12468579e-03,  7.74660194e-03, -9.87132732e-03,\n",
+       "                          1.77269569e-03, -1.75155178e-02,  2.02640314e-02,  1.94381177e-02,\n",
+       "                         -6.83493027e-03,  5.30726416e-03,  2.38340460e-02,  8.98609124e-03,\n",
+       "                          4.55694133e-03,  1.06510837e-02,  1.39252860e-02, -6.70732552e-05,\n",
+       "                          1.23598548e-02, -1.31418537e-02,  7.97190145e-03, -3.49693745e-03,\n",
+       "                          2.01660190e-02,  7.97026139e-03, -2.54692102e-04,  1.66945271e-02,\n",
+       "                          8.12765770e-03,  4.78525134e-03,  1.07379351e-02, -1.70712039e-04,\n",
+       "                         -4.91422415e-03, -1.46261165e-02,  8.60630348e-03,  3.46043613e-03,\n",
+       "                          1.63556151e-02, -2.01419517e-02,  7.34371971e-03,  2.09604669e-02,\n",
+       "                         -4.91989404e-03,  2.00477522e-02,  8.49883631e-03, -7.02486327e-03,\n",
+       "                          1.57896075e-02,  6.71546627e-03,  8.28711130e-03,  1.12022590e-02,\n",
+       "                          9.92548559e-03,  1.21114654e-02,  1.82388239e-02, -1.45878103e-02,\n",
+       "                         -4.14639711e-03,  1.76131856e-02, -9.23024770e-03, -8.87810253e-03,\n",
+       "                         -1.08306920e-02,  1.42421983e-02,  5.19373035e-03, -2.37513538e-02,\n",
+       "                          2.26361621e-02,  9.16093995e-04,  2.00996231e-02, -6.26094127e-03,\n",
+       "                         -1.59570146e-02, -8.83307424e-04, -2.30691601e-02,  1.14731037e-03,\n",
+       "                         -2.26202514e-02, -7.53147062e-03,  1.61701851e-02, -5.77796076e-04,\n",
+       "                         -2.96659092e-03, -4.15878883e-03, -3.92619381e-03,  1.09928856e-02,\n",
+       "                         -6.64000632e-03, -1.43695585e-02,  1.63874105e-02,  5.98971080e-03,\n",
+       "                          3.20064626e-03,  4.41091228e-03, -1.66858118e-02,  2.23180708e-02,\n",
+       "                          1.21295657e-02, -1.12690898e-02, -4.08188906e-03,  6.03400357e-03,\n",
+       "                          9.41000879e-03, -2.47898344e-02,  3.84332053e-03, -2.90675904e-03,\n",
+       "                          1.75656620e-02,  1.82535767e-03,  1.69527456e-02,  1.70554612e-02,\n",
+       "                          1.58965960e-02,  9.59413592e-03, -1.36477742e-02, -6.80452771e-03,\n",
+       "                          1.23747848e-02,  1.55602759e-02, -9.33919381e-03, -4.79441776e-04,\n",
+       "                         -2.74120253e-02, -1.70317907e-02,  7.85582885e-03, -2.69122683e-02,\n",
+       "                          1.54303005e-02, -1.24900360e-02, -1.82244158e-03, -5.80713968e-04,\n",
+       "                          2.50871126e-02,  1.17920628e-02,  8.81043635e-03, -1.84596833e-02,\n",
+       "                          1.06913671e-02,  8.91262107e-03,  1.51733793e-02,  1.93881411e-02,\n",
+       "                         -1.48909241e-02,  1.87424663e-02, -7.78475078e-03,  1.11052729e-02,\n",
+       "                          9.85566806e-03,  2.79320199e-02,  8.94294027e-03,  7.57371774e-03,\n",
+       "                         -5.01180999e-03,  1.65897086e-02,  7.87321478e-03, -9.50829685e-03,\n",
+       "                          1.91696696e-02,  1.10584788e-03,  5.57772722e-03,  9.22551844e-03,\n",
+       "                         -1.42724728e-02,  2.05761101e-03,  9.26569104e-03,  9.43784509e-03,\n",
+       "                          5.86663932e-03,  1.16787646e-02,  1.64901260e-02,  1.16064958e-02,\n",
+       "                          1.27171073e-02,  6.72639161e-03, -5.28149540e-04,  4.67793457e-03,\n",
+       "                         -1.56461000e-02,  2.28382964e-02,  6.34732191e-04, -7.66546326e-03,\n",
+       "                         -1.12781981e-02,  1.42416246e-02,  3.58064263e-03, -1.62186753e-03,\n",
+       "                          1.68378465e-02, -8.02798569e-03,  1.53726414e-02, -6.99624233e-03,\n",
+       "                          1.32351890e-02,  1.45837171e-02,  1.30574675e-02,  2.08209585e-02,\n",
+       "                          1.27933007e-02,  2.81269122e-02,  1.33745640e-03, -2.24389415e-02,\n",
+       "                          1.87091082e-02,  7.40896026e-03, -2.13304218e-02, -1.05568739e-02,\n",
+       "                          1.41326403e-02, -1.28459418e-03,  1.25366366e-02, -7.02124741e-03,\n",
+       "                         -7.53937569e-03, -1.25048766e-02, -4.38260660e-03,  7.50464620e-03,\n",
+       "                          1.97301023e-02, -8.34845100e-03, -1.63942091e-02,  2.17455458e-02,\n",
+       "                         -6.29904168e-03, -7.13661546e-03, -1.75990500e-02,  1.82209853e-02,\n",
+       "                          2.12942436e-02, -2.48322147e-03,  1.89036131e-02, -1.94397254e-03,\n",
+       "                          1.41878463e-02,  9.81104188e-03,  1.42406281e-02,  1.03803305e-02,\n",
+       "                          2.19183583e-02,  2.00765505e-02,  9.17724986e-03,  1.92660093e-02,\n",
+       "                         -2.72041163e-03,  6.12203311e-03, -1.05543146e-02, -1.29299359e-02,\n",
+       "                         -1.11266859e-02, -9.32210498e-03, -9.91335791e-03, -2.17839284e-03,\n",
+       "                          1.11390892e-02,  1.00555513e-02, -1.15690997e-03,  6.40681246e-03,\n",
+       "                          4.61202953e-03,  6.93128398e-03, -1.09066963e-02, -2.91597773e-03,\n",
+       "                          1.04544824e-03,  6.25762343e-03,  1.79513339e-02,  3.48348217e-03,\n",
+       "                          2.39446368e-02, -5.20698773e-03,  8.38620495e-03,  5.52680856e-03,\n",
+       "                         -4.84721502e-03,  1.62413325e-02, -7.01867836e-03,  1.65924840e-02,\n",
+       "                          1.36338379e-02,  1.48431053e-02,  1.48721933e-02,  8.85732123e-04,\n",
+       "                          8.52295291e-03, -9.02669318e-03,  3.02526504e-02, -2.07700883e-03,\n",
+       "                          4.68547875e-03,  3.54835507e-03,  2.13338230e-02,  1.50220273e-02,\n",
+       "                         -6.02535671e-03,  1.97854899e-02, -2.00620033e-02, -8.88607185e-03,\n",
+       "                          6.25809189e-04,  2.49126870e-02, -9.88007989e-03, -1.90524850e-03,\n",
+       "                         -2.11622585e-02,  1.24527710e-02,  9.76101309e-03, -3.18096322e-03,\n",
+       "                          1.21807382e-02, -2.09994894e-02, -3.40486411e-03, -3.80637310e-03,\n",
+       "                         -1.00017572e-02,  3.26828659e-03, -1.94694996e-02,  3.76621522e-02,\n",
+       "                         -2.40518022e-02,  6.02365006e-03,  2.09805253e-03, -9.52404691e-04,\n",
+       "                         -1.39954900e-02,  2.41800435e-02,  2.86736488e-02,  1.79633386e-02,\n",
+       "                         -5.79016749e-03,  1.41466688e-02,  7.21023418e-03,  2.89126094e-02,\n",
+       "                          3.13231573e-02,  1.63700022e-02,  1.45204756e-02, -1.04396110e-02,\n",
+       "                         -4.50925250e-03,  8.29984993e-03,  8.99901643e-05, -8.01164564e-03,\n",
+       "                          1.80391222e-02,  1.98991168e-02, -2.79113138e-03,  2.09845658e-02,\n",
+       "                          9.41892527e-03,  1.45994853e-02, -1.45313693e-02,  8.77158064e-03,\n",
+       "                         -2.70679742e-02,  1.80923715e-02, -9.45959799e-03,  4.77605872e-03,\n",
+       "                          2.60386616e-02,  1.14202555e-02,  6.31397264e-03,  2.62519787e-03,\n",
+       "                          1.45881884e-02,  7.31406407e-03,  8.89989920e-03,  2.02203915e-02,\n",
+       "                         -7.16251787e-03,  2.41501890e-02,  3.22476029e-03,  2.06751749e-02,\n",
+       "                          4.73092962e-03, -8.30835383e-03, -1.96678955e-02, -4.87877056e-03,\n",
+       "                          1.03124082e-02,  1.02846436e-02,  1.12687731e-02, -1.97079242e-03,\n",
+       "                          1.75375808e-02, -1.57790724e-02,  5.71746798e-03, -6.58601616e-03,\n",
+       "                         -6.35589473e-03,  9.28526465e-03,  1.34158628e-02,  2.18920186e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[ 1.1502154e-02,  3.0195275e-02,  3.4433580e-03, ...,\n",
+       "                          -4.3353168e-03,  1.9910611e-02, -1.3856224e-02],\n",
+       "                         [ 5.6839739e-03,  2.9456308e-02,  2.2852859e-02, ...,\n",
+       "                          -1.9397736e-02,  2.8950260e-03, -2.1839043e-02],\n",
+       "                         [ 1.5003541e-03, -6.0947877e-03,  1.7701474e-03, ...,\n",
+       "                          -2.2228636e-02, -2.5397372e-02,  2.7237378e-02],\n",
+       "                         ...,\n",
+       "                         [-8.5829953e-03,  1.7714988e-03, -3.8301013e-02, ...,\n",
+       "                           1.3236449e-02,  1.2210120e-02, -1.1586262e-02],\n",
+       "                         [-3.3372819e-02,  1.9075049e-02,  1.4666800e-02, ...,\n",
+       "                           8.2554603e-03,  3.6509219e-03, -1.4935212e-02],\n",
+       "                         [ 2.1129467e-03, -8.5969763e-03, -2.0772312e-02, ...,\n",
+       "                          -1.2316188e-05, -3.8625787e-03, -2.1612834e-02]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-0.01241958,  0.02853034,  0.00683807, -0.00909434, -0.01633247,\n",
+       "                          0.02183856, -0.00105524,  0.00936508, -0.01849056, -0.0228079 ,\n",
+       "                         -0.03805307,  0.01537926,  0.0232118 , -0.01152004, -0.00144519,\n",
+       "                          0.01462283, -0.02123057, -0.00374562, -0.01543367,  0.01980601,\n",
+       "                         -0.01125354,  0.01716148, -0.00419925,  0.01768438, -0.00653506,\n",
+       "                          0.02330243,  0.02034115,  0.00540797, -0.00328603,  0.00323312,\n",
+       "                         -0.006646  , -0.00093303, -0.00532696,  0.00672833,  0.00015488,\n",
+       "                          0.02395755, -0.00312466, -0.00607315, -0.01638863, -0.02672903,\n",
+       "                          0.00969766, -0.00010234,  0.01260834,  0.02663585,  0.01452464,\n",
+       "                         -0.00959755, -0.02336573,  0.00672154, -0.01493897,  0.01388968,\n",
+       "                         -0.00423932,  0.0323926 , -0.02120744,  0.01426661,  0.00509344,\n",
+       "                         -0.02652669, -0.02495514, -0.00018103,  0.02344626,  0.00848018,\n",
+       "                         -0.00409297,  0.01169506,  0.01301485, -0.01236273,  0.00858005,\n",
+       "                          0.01046913, -0.00787587,  0.01130183, -0.01470941,  0.01809805,\n",
+       "                          0.0143772 ,  0.01087649,  0.00210273,  0.00751127,  0.01507526,\n",
+       "                          0.00683949, -0.00109522,  0.03121684, -0.01275832, -0.00581627,\n",
+       "                         -0.01427171,  0.01064673, -0.00053186,  0.00614763, -0.01663968,\n",
+       "                          0.01788151, -0.03325289, -0.00285536, -0.00051261, -0.00639026,\n",
+       "                         -0.01863781,  0.01362973,  0.00018454, -0.00389818,  0.03368738,\n",
+       "                          0.01071555, -0.01569902, -0.01870691,  0.02316205, -0.00841834,\n",
+       "                          0.01257211,  0.01517834, -0.01216789,  0.00544479,  0.00686449,\n",
+       "                         -0.00698842, -0.01006403,  0.00086243, -0.02365486,  0.00670945,\n",
+       "                          0.0390068 ,  0.00385976,  0.00107472, -0.01530283, -0.00273055,\n",
+       "                         -0.00875664,  0.0135286 , -0.00480531,  0.01045919, -0.01012978,\n",
+       "                          0.02552531, -0.01144321,  0.01719082, -0.01037663,  0.00549512,\n",
+       "                         -0.00379107,  0.01855377,  0.01752721,  0.01856578, -0.00760566,\n",
+       "                         -0.01135699, -0.00992793, -0.02295038,  0.00824989,  0.00599996,\n",
+       "                         -0.02123486, -0.00773912, -0.00481055, -0.01155985,  0.00741208,\n",
+       "                          0.01413365, -0.00590017,  0.03520844,  0.00596596, -0.01012237,\n",
+       "                         -0.00325622,  0.01000111, -0.00672712,  0.00253006, -0.02350044,\n",
+       "                         -0.00175385, -0.00105427, -0.02612934, -0.00763389,  0.00502535,\n",
+       "                         -0.00788742, -0.03994568, -0.00025992, -0.00857767, -0.00876805,\n",
+       "                          0.00468722,  0.03416699, -0.01038047, -0.00378856,  0.00473238,\n",
+       "                         -0.00725147, -0.01040328,  0.02098466,  0.0140253 ,  0.01751439,\n",
+       "                          0.00842675,  0.01253181, -0.00643643, -0.0167303 ,  0.0021241 ,\n",
+       "                          0.00140574,  0.00986787, -0.01171913, -0.01513289, -0.00678355,\n",
+       "                          0.01158554, -0.01056996, -0.0075354 ,  0.017674  , -0.02223495,\n",
+       "                         -0.01389522, -0.01531147, -0.00671497, -0.02587223, -0.00409507,\n",
+       "                         -0.00604762,  0.01518861], dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([0.9852155 , 1.0364006 , 1.027549  , 0.98277205, 1.0121615 ,\n",
+       "                         1.0004774 , 0.979088  , 0.98762256, 0.9822612 , 1.0024757 ,\n",
+       "                         1.0178878 , 0.9982759 , 0.9857063 , 1.0386217 , 1.0258405 ,\n",
+       "                         1.0109771 , 1.0249064 , 1.010365  , 1.0099815 , 0.9645096 ,\n",
+       "                         1.0084565 , 1.0489866 , 0.981453  , 0.9962389 , 0.9827237 ,\n",
+       "                         1.0107062 , 1.0454112 , 0.9842302 , 0.9949914 , 0.9944677 ,\n",
+       "                         0.9969635 , 0.9898968 , 0.9921109 , 1.0128655 , 1.0332738 ,\n",
+       "                         0.9949823 , 1.0049902 , 1.041102  , 0.96877766, 0.9986009 ,\n",
+       "                         1.0198799 , 0.9955294 , 1.0086453 , 1.0235807 , 0.9956834 ,\n",
+       "                         1.0039417 , 1.0140501 , 1.0132045 , 0.9853706 , 0.9748088 ,\n",
+       "                         1.0001203 , 1.0847405 , 1.0447997 , 0.9901248 , 1.0031246 ,\n",
+       "                         1.0199534 , 0.9770546 , 0.999394  , 1.0149245 , 1.0473361 ,\n",
+       "                         1.0330361 , 0.9756772 , 0.9943355 , 1.0108433 , 1.0134748 ,\n",
+       "                         1.0013411 , 0.9506735 , 1.0379674 , 1.0353746 , 1.002177  ,\n",
+       "                         1.0023688 , 0.9892762 , 0.9773186 , 1.0141166 , 1.002981  ,\n",
+       "                         1.0191174 , 0.98849046, 1.022799  , 1.0195305 , 1.0230048 ,\n",
+       "                         1.0099448 , 0.98876977, 0.99861807, 0.97954166, 0.99275714,\n",
+       "                         1.0210892 , 1.0309327 , 0.9666654 , 1.0129836 , 0.9747011 ,\n",
+       "                         1.0128973 , 1.012891  , 0.9990587 , 1.0170548 , 1.010477  ,\n",
+       "                         1.0182072 , 1.0451443 , 1.0147196 , 1.0275202 , 1.0031815 ,\n",
+       "                         0.9713346 , 1.0140051 , 1.008478  , 0.97465855, 1.002004  ,\n",
+       "                         0.9743532 , 0.9646272 , 1.0154831 , 1.0049416 , 1.0383679 ,\n",
+       "                         1.0292878 , 1.0018117 , 1.0358334 , 1.0231141 , 0.9852119 ,\n",
+       "                         0.99526   , 1.0031705 , 1.0005804 , 1.0160758 , 1.0009396 ,\n",
+       "                         0.9937701 , 0.97460693, 0.9934284 , 0.9907833 , 0.9996789 ,\n",
+       "                         0.9982435 , 0.95795155, 1.0261976 , 0.9944988 , 0.991796  ,\n",
+       "                         1.006492  , 1.0282378 , 1.0289887 , 0.98540115, 1.0217592 ,\n",
+       "                         1.0396023 , 0.9858527 , 1.0488491 , 1.013778  , 1.0042695 ,\n",
+       "                         1.0170459 , 1.0154129 , 1.063929  , 0.9751546 , 0.9910128 ,\n",
+       "                         0.99503356, 1.0161502 , 0.9895987 , 1.0674409 , 1.0243562 ,\n",
+       "                         0.98804605, 1.0005897 , 0.992049  , 1.0179774 , 1.0048453 ,\n",
+       "                         0.99315923, 1.0526005 , 0.979498  , 1.0266209 , 1.0236341 ,\n",
+       "                         0.99886864, 1.0421077 , 1.0011927 , 0.96343213, 0.99783915,\n",
+       "                         1.02873   , 1.0166678 , 0.99097514, 1.0069718 , 1.0072308 ,\n",
+       "                         1.0127227 , 1.0288228 , 1.0415279 , 1.0005622 , 0.9816634 ,\n",
+       "                         1.0572006 , 1.0198735 , 1.0341889 , 1.0459491 , 1.0213513 ,\n",
+       "                         1.0223459 , 1.0222113 , 0.96529055, 1.022591  , 1.0126592 ,\n",
+       "                         1.0198402 , 1.0261475 , 1.0120711 , 1.0275295 , 0.9952427 ,\n",
+       "                         1.0431594 , 0.97232854], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-2.37033051e-03,  1.91313978e-02,  1.01093650e-02,  4.05753450e-03,\n",
+       "                         -1.70360077e-02,  6.06864411e-03,  9.15885065e-03, -5.63371833e-03,\n",
+       "                         -2.02597678e-03, -2.18763780e-02, -3.09356581e-03, -1.91516075e-02,\n",
+       "                          1.66877150e-03, -2.36133747e-02, -2.20339838e-02, -2.80247089e-02,\n",
+       "                         -2.89943665e-02, -1.30719393e-02, -1.63518302e-02, -2.60582590e-03,\n",
+       "                         -3.11099421e-02,  1.96724385e-02,  3.32913222e-03,  1.69437453e-02,\n",
+       "                         -2.27522640e-03, -8.11038818e-03,  4.56425697e-02, -2.27964334e-02,\n",
+       "                         -1.25466911e-02,  2.61981692e-02,  1.28261317e-02,  9.49844532e-03,\n",
+       "                          2.52729468e-02, -7.68367993e-03,  1.39565291e-02,  1.90326143e-02,\n",
+       "                          1.07567376e-02, -2.58484725e-02, -3.55810975e-03, -1.75751355e-02,\n",
+       "                          1.92785300e-02,  1.84035245e-02,  6.28257543e-03,  9.46599059e-03,\n",
+       "                          3.20155472e-02,  6.54644100e-03, -1.70770939e-03,  3.20957415e-02,\n",
+       "                         -1.10255778e-02,  1.71637558e-03,  1.42931764e-04,  6.96345791e-02,\n",
+       "                         -4.99027446e-02, -1.42051978e-02,  2.29926314e-02, -4.28680517e-02,\n",
+       "                         -2.90031210e-02, -1.41013991e-02, -1.47265557e-03,  4.14010547e-02,\n",
+       "                         -2.40229759e-02, -6.86572865e-03,  5.20605454e-03, -2.06006714e-03,\n",
+       "                          1.92263592e-02,  1.79059729e-02,  1.09153679e-02, -1.67970061e-02,\n",
+       "                         -3.77605371e-02,  1.99129079e-02, -2.10124403e-02,  8.80824681e-03,\n",
+       "                          2.72766445e-02,  8.14127456e-03,  1.92559808e-02,  2.78823264e-02,\n",
+       "                          4.32518590e-03,  2.51557603e-02,  3.51047292e-02,  5.63334860e-03,\n",
+       "                         -4.68640728e-03, -2.18737293e-02, -7.34007731e-03,  9.59546305e-03,\n",
+       "                         -1.38547756e-02,  1.78651828e-02, -2.37801727e-02,  4.65563685e-03,\n",
+       "                         -3.05796915e-04,  1.95858218e-02, -2.20856126e-02, -1.24227609e-02,\n",
+       "                         -1.77869350e-02,  2.46098898e-02,  5.85811818e-03,  5.50471433e-03,\n",
+       "                          4.94662253e-03, -3.92277874e-02,  1.83651447e-02, -1.67005658e-02,\n",
+       "                          1.26100359e-02,  2.88667548e-02, -1.00637684e-02, -5.48522128e-03,\n",
+       "                          1.85373705e-02, -2.42446433e-03,  9.86807607e-03, -3.94466380e-03,\n",
+       "                          3.72836436e-03, -1.00599965e-02,  7.89202005e-03, -1.10111339e-02,\n",
+       "                          4.22599353e-03, -2.47036517e-02,  5.58750471e-04,  1.41762767e-03,\n",
+       "                          1.36968903e-02, -1.66733786e-02,  2.72763204e-02, -2.58759670e-02,\n",
+       "                          1.21340379e-02,  2.35210322e-02,  1.54033285e-02,  1.39820594e-02,\n",
+       "                          5.67326415e-03,  1.50017312e-03, -2.76013114e-03,  2.88881287e-02,\n",
+       "                         -3.20774689e-03,  2.97818799e-02, -1.94280769e-03, -2.28080340e-02,\n",
+       "                          1.21221878e-02, -8.36547278e-03, -3.55398119e-03, -5.41792600e-04,\n",
+       "                         -3.06898518e-03, -2.80403141e-02, -2.86662858e-03, -7.91238155e-03,\n",
+       "                          2.32149065e-02, -1.11842039e-03,  2.01880708e-02, -2.16523418e-03,\n",
+       "                          2.88938568e-03,  1.61452312e-02,  4.12153117e-02,  9.43372492e-03,\n",
+       "                         -3.54020633e-02, -1.30866235e-02,  1.56355500e-02, -1.49343936e-02,\n",
+       "                         -2.56032422e-02,  2.89632153e-05, -2.46269181e-02, -1.50771979e-02,\n",
+       "                         -3.95376608e-02,  5.34949219e-03,  9.42495372e-03, -4.92170919e-03,\n",
+       "                          4.10526711e-03,  2.22940072e-02, -2.31830720e-02, -1.66208707e-02,\n",
+       "                          1.91355534e-02, -3.46482210e-02,  5.57400146e-03, -1.59618463e-02,\n",
+       "                          3.18800770e-02,  2.25322861e-02, -4.54151118e-03,  1.49050048e-02,\n",
+       "                         -2.40489636e-02, -3.10217272e-02, -7.37116206e-03,  1.22891106e-02,\n",
+       "                          2.90672597e-03, -2.32472681e-02, -8.74773785e-03, -1.95246432e-02,\n",
+       "                          6.01558946e-03,  5.16772131e-03,  2.31722388e-02,  2.74683330e-02,\n",
+       "                         -1.15139652e-02, -6.45596720e-03, -2.21686754e-02, -3.20681208e-03,\n",
+       "                         -3.18386555e-02, -1.94104444e-02,  2.18740031e-02,  6.25720434e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.01058718,  0.03682905,  0.09114693, ..., -0.03453917,\n",
+       "                         -0.01760284,  0.09259388],\n",
+       "                        [-0.00297024, -0.02378768, -0.07082628, ..., -0.06978793,\n",
+       "                          0.05483576, -0.05034392],\n",
+       "                        [-0.08363335, -0.06822307,  0.03970811, ..., -0.12143752,\n",
+       "                          0.11783837,  0.03857919],\n",
+       "                        ...,\n",
+       "                        [-0.01670413, -0.07294234, -0.08620504, ...,  0.10722338,\n",
+       "                          0.00923203, -0.03350214],\n",
+       "                        [ 0.06109136,  0.06042374, -0.00659119, ...,  0.0707885 ,\n",
+       "                         -0.02079144,  0.01066571],\n",
+       "                        [ 0.10982136, -0.02290034, -0.014448  , ..., -0.0806082 ,\n",
+       "                         -0.03159957, -0.01608819]],\n",
+       "                \n",
+       "                       [[-0.11605033, -0.01375149, -0.07468455, ...,  0.01621455,\n",
+       "                          0.08687735,  0.05813948],\n",
+       "                        [ 0.04203267, -0.12218651,  0.09532513, ...,  0.13221355,\n",
+       "                          0.11181808,  0.02940457],\n",
+       "                        [-0.08041264,  0.0090088 , -0.05519261, ...,  0.06512534,\n",
+       "                         -0.0642755 , -0.08553269],\n",
+       "                        ...,\n",
+       "                        [ 0.1317722 ,  0.13678272,  0.0329141 , ...,  0.03373389,\n",
+       "                          0.09339988,  0.0894448 ],\n",
+       "                        [-0.06164918, -0.12587458,  0.09905007, ..., -0.13373971,\n",
+       "                         -0.07916333, -0.01780121],\n",
+       "                        [-0.03096768,  0.08641233,  0.02373505, ...,  0.09452015,\n",
+       "                         -0.03499092,  0.01695814]],\n",
+       "                \n",
+       "                       [[ 0.02651143, -0.06353214, -0.12777635, ...,  0.03804458,\n",
+       "                          0.00197261, -0.10712351],\n",
+       "                        [-0.01875591, -0.00738947,  0.11065426, ...,  0.09544057,\n",
+       "                         -0.05187849,  0.08287732],\n",
+       "                        [ 0.08060304,  0.05765998, -0.12754323, ...,  0.04160313,\n",
+       "                         -0.11778066,  0.03986501],\n",
+       "                        ...,\n",
+       "                        [ 0.11805814,  0.06904506,  0.14718172, ..., -0.02883004,\n",
+       "                          0.07223026,  0.07664383],\n",
+       "                        [-0.09684561, -0.02213801, -0.03465832, ..., -0.02261032,\n",
+       "                          0.07118997,  0.00508467],\n",
+       "                        [ 0.00057492,  0.02659811,  0.04062701, ...,  0.05967619,\n",
+       "                          0.06339315,  0.03982014]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.01507929, -0.07893618, -0.0322073 , ...,  0.07576791,\n",
+       "                         -0.10563017, -0.00738726],\n",
+       "                        [-0.0478123 ,  0.08185118, -0.05651506, ..., -0.0263147 ,\n",
+       "                         -0.02521784, -0.07904705],\n",
+       "                        [-0.0155017 ,  0.05927561, -0.05986115, ..., -0.08566193,\n",
+       "                          0.05634455,  0.110907  ],\n",
+       "                        ...,\n",
+       "                        [ 0.01034647, -0.06524284, -0.0334756 , ...,  0.06058369,\n",
+       "                          0.0865595 , -0.04121307],\n",
+       "                        [-0.01043255,  0.0526881 , -0.08253193, ...,  0.08965821,\n",
+       "                          0.07281312, -0.01089244],\n",
+       "                        [ 0.07120045, -0.04455291, -0.04121703, ..., -0.05069685,\n",
+       "                          0.06488623,  0.1029586 ]],\n",
+       "                \n",
+       "                       [[ 0.02727754,  0.05163872,  0.01280662, ..., -0.00124914,\n",
+       "                         -0.04083077,  0.09018545],\n",
+       "                        [ 0.03548221,  0.03749135, -0.03751899, ..., -0.04528967,\n",
+       "                         -0.03048984, -0.05268783],\n",
+       "                        [-0.06498884, -0.00233416, -0.03278327, ..., -0.07556193,\n",
+       "                          0.09041151, -0.0185978 ],\n",
+       "                        ...,\n",
+       "                        [ 0.05837246, -0.090928  ,  0.05213014, ...,  0.08073077,\n",
+       "                         -0.02314409, -0.04946245],\n",
+       "                        [ 0.04946104,  0.05461764,  0.02328938, ...,  0.10022704,\n",
+       "                         -0.03574402,  0.01422984],\n",
+       "                        [ 0.06283685, -0.04212229,  0.06461163, ..., -0.04840949,\n",
+       "                         -0.03460325,  0.00901603]],\n",
+       "                \n",
+       "                       [[ 0.01957136, -0.10803653, -0.120051  , ...,  0.05207831,\n",
+       "                          0.04294526, -0.13189642],\n",
+       "                        [ 0.07092424, -0.09620617,  0.15316002, ...,  0.18548235,\n",
+       "                          0.03283798, -0.00430182],\n",
+       "                        [ 0.12585637,  0.09406012, -0.02678724, ...,  0.15702237,\n",
+       "                         -0.11289927, -0.06027082],\n",
+       "                        ...,\n",
+       "                        [-0.02933937,  0.04369094,  0.04304244, ..., -0.06891637,\n",
+       "                          0.09840393,  0.06937052],\n",
+       "                        [-0.09791669, -0.14413498,  0.1201906 , ..., -0.1417487 ,\n",
+       "                         -0.01431887,  0.07915976],\n",
+       "                        [-0.12835288,  0.02503126,  0.06159561, ...,  0.06953844,\n",
+       "                          0.07483927, -0.00633557]]], dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-5.90210855e-02,  4.34171669e-02, -1.99635141e-03, ...,\n",
+       "                         -2.44745705e-02,  9.98274889e-03, -4.79703546e-02],\n",
+       "                        [-2.75882166e-02,  9.31519084e-03,  3.69278379e-02, ...,\n",
+       "                         -4.56331018e-03, -4.12776135e-02,  1.14590205e-01],\n",
+       "                        [ 3.64195593e-02,  1.58521105e-02, -1.81169366e-03, ...,\n",
+       "                          3.14169787e-02, -6.23576753e-02,  1.52163242e-03],\n",
+       "                        ...,\n",
+       "                        [-6.99238200e-03,  5.00007086e-02,  2.39356533e-02, ...,\n",
+       "                         -9.98626091e-03, -2.38673594e-02,  4.39484284e-04],\n",
+       "                        [-2.19905470e-02, -2.52510794e-02, -2.14587487e-02, ...,\n",
+       "                         -4.18025665e-02,  2.49287635e-02, -1.54041843e-02],\n",
+       "                        [-3.79781984e-02, -1.87126379e-02, -1.99985690e-02, ...,\n",
+       "                          4.43660878e-02, -1.27250701e-02,  1.84512883e-02]],\n",
+       "                \n",
+       "                       [[ 5.41945063e-02,  1.34145143e-02,  2.77874246e-03, ...,\n",
+       "                         -1.96275264e-02,  1.13267377e-02, -7.53151327e-02],\n",
+       "                        [-2.57847179e-02,  1.59293264e-02, -2.07306109e-02, ...,\n",
+       "                         -8.93725175e-03, -4.47612628e-02,  3.60955410e-02],\n",
+       "                        [ 5.62713705e-02,  1.73182245e-02, -3.89385241e-04, ...,\n",
+       "                         -1.96348689e-02,  9.15800314e-03,  3.72796655e-02],\n",
+       "                        ...,\n",
+       "                        [-7.02946708e-02, -4.45559956e-02, -1.17102703e-02, ...,\n",
+       "                         -3.87443602e-02, -1.17546711e-02, -5.91564924e-02],\n",
+       "                        [ 2.06296332e-03,  4.28916253e-02, -2.77703851e-02, ...,\n",
+       "                          3.47270779e-02,  6.60240874e-02,  2.54680440e-02],\n",
+       "                        [-1.49701638e-02, -6.02386929e-02, -2.47875825e-02, ...,\n",
+       "                         -1.61316264e-02,  2.95853242e-02, -5.91987073e-02]],\n",
+       "                \n",
+       "                       [[-4.37036753e-02, -6.95727346e-03,  2.36706119e-02, ...,\n",
+       "                         -9.38698556e-03,  3.88122424e-02,  2.49317791e-02],\n",
+       "                        [ 1.27064716e-02, -2.35662591e-02, -2.61280220e-02, ...,\n",
+       "                          7.28443777e-03,  8.27534422e-02,  7.51149887e-03],\n",
+       "                        [-5.24830706e-02, -3.81087908e-03,  1.30844116e-02, ...,\n",
+       "                          6.81623304e-03,  2.32157055e-02, -5.30048907e-02],\n",
+       "                        ...,\n",
+       "                        [-4.61471193e-02,  1.03602861e-03, -4.46353555e-02, ...,\n",
+       "                          2.28072926e-02, -1.36079732e-02, -2.53427215e-02],\n",
+       "                        [ 2.07929667e-02, -2.94016507e-02,  5.45149893e-02, ...,\n",
+       "                         -2.74515636e-02, -9.74052548e-02,  8.14550277e-03],\n",
+       "                        [ 9.77054797e-03, -9.50433221e-03,  7.28448946e-03, ...,\n",
+       "                         -3.74069698e-02, -3.43832858e-02, -3.92707661e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 6.10093474e-02,  1.68410763e-02,  8.68699979e-03, ...,\n",
+       "                         -3.45595144e-02,  3.28637511e-02, -4.64203767e-05],\n",
+       "                        [ 7.97479451e-02, -2.38789544e-02,  2.74105147e-02, ...,\n",
+       "                         -4.17989865e-03,  2.49404870e-02,  6.70280159e-02],\n",
+       "                        [ 4.83222480e-04, -4.25363481e-02,  6.34995773e-02, ...,\n",
+       "                          4.12282310e-02, -1.54497288e-02, -4.75513749e-02],\n",
+       "                        ...,\n",
+       "                        [-3.38124484e-02,  1.39421206e-02,  6.07055658e-03, ...,\n",
+       "                         -2.44325697e-02, -3.31673808e-02,  4.83592227e-03],\n",
+       "                        [ 7.39810523e-04, -8.04365706e-03,  3.52239385e-02, ...,\n",
+       "                         -4.01173607e-02, -6.56333640e-02,  2.45116055e-02],\n",
+       "                        [-1.14331609e-02,  1.55496271e-02,  5.85486293e-02, ...,\n",
+       "                          2.79851649e-02, -1.92271871e-03, -2.75689736e-02]],\n",
+       "                \n",
+       "                       [[ 2.35009473e-02, -3.08533590e-02,  4.36399970e-03, ...,\n",
+       "                         -2.93166190e-03,  1.46314385e-03,  5.68151474e-04],\n",
+       "                        [-4.93079200e-02, -1.97271518e-02,  3.50344703e-02, ...,\n",
+       "                          2.04764493e-02, -4.60682251e-03,  1.08513152e-02],\n",
+       "                        [ 6.89943740e-03,  2.28747390e-02,  9.06581699e-05, ...,\n",
+       "                          2.52446663e-02, -2.19965056e-02, -7.60986877e-04],\n",
+       "                        ...,\n",
+       "                        [-2.55710836e-02,  5.00606634e-02, -3.40986438e-02, ...,\n",
+       "                         -4.90233079e-02,  1.36359530e-02,  2.61313133e-02],\n",
+       "                        [-4.76434920e-03, -1.00291260e-02, -3.64733823e-02, ...,\n",
+       "                         -3.12171355e-02,  5.43197058e-02,  6.78825472e-03],\n",
+       "                        [ 3.33094154e-03,  2.56252754e-02, -4.12063822e-02, ...,\n",
+       "                          2.19627749e-02,  2.01614574e-02,  2.65088282e-03]],\n",
+       "                \n",
+       "                       [[ 3.51362936e-02,  2.48704609e-02,  3.57548483e-02, ...,\n",
+       "                         -2.47696275e-03, -6.84352545e-03,  4.15612645e-02],\n",
+       "                        [-2.16142964e-02,  3.19883004e-02, -3.55823301e-02, ...,\n",
+       "                         -7.67420605e-02, -3.91073665e-03,  7.03935279e-03],\n",
+       "                        [-4.79541570e-02, -2.93009151e-02,  2.61855195e-03, ...,\n",
+       "                         -4.90158983e-02,  4.67158407e-02, -1.52994962e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.18879750e-02, -3.51569764e-02,  2.65400689e-02, ...,\n",
+       "                         -4.44353409e-02, -2.41325963e-02, -1.79594886e-02],\n",
+       "                        [ 1.76957212e-02,  3.91266383e-02, -3.90461832e-02, ...,\n",
+       "                          6.36743829e-02,  1.41147627e-02,  2.26510391e-02],\n",
+       "                        [ 5.80539107e-02, -1.34982064e-03,  8.36841110e-03, ...,\n",
+       "                         -2.82480065e-02, -2.39372402e-02, -6.27177358e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.03499625,  0.10368989,  0.02441348, ..., -0.003244  ,\n",
+       "                          0.1242573 , -0.02445888],\n",
+       "                        [ 0.06626423,  0.03306542,  0.04200595, ..., -0.00377446,\n",
+       "                         -0.04789376, -0.00962668],\n",
+       "                        [ 0.02439465,  0.03888132,  0.0930598 , ...,  0.02133278,\n",
+       "                          0.00426779, -0.0027867 ],\n",
+       "                        ...,\n",
+       "                        [-0.07516909,  0.00131968,  0.08840876, ...,  0.0255404 ,\n",
+       "                          0.03979552, -0.00712845],\n",
+       "                        [ 0.02686626,  0.0474382 , -0.03639288, ..., -0.01380529,\n",
+       "                         -0.07007378, -0.0813513 ],\n",
+       "                        [ 0.03377542,  0.02405026,  0.03543339, ...,  0.10293096,\n",
+       "                          0.00264665,  0.01565776]],\n",
+       "                \n",
+       "                       [[-0.08188748,  0.05205513,  0.01543365, ..., -0.04916153,\n",
+       "                         -0.00486754,  0.02816534],\n",
+       "                        [ 0.03138385, -0.01935313, -0.00362915, ..., -0.03934926,\n",
+       "                         -0.03689792,  0.0408057 ],\n",
+       "                        [ 0.03388436,  0.01132539, -0.00629398, ..., -0.0243766 ,\n",
+       "                          0.01286879, -0.01746798],\n",
+       "                        ...,\n",
+       "                        [-0.02282297, -0.0242937 , -0.00180181, ..., -0.04940225,\n",
+       "                          0.02674352, -0.03147774],\n",
+       "                        [-0.00590355,  0.05113911, -0.05632209, ...,  0.01716853,\n",
+       "                          0.053973  , -0.01721259],\n",
+       "                        [ 0.01434179, -0.07245232,  0.04085753, ..., -0.0078034 ,\n",
+       "                         -0.0121857 , -0.03913871]],\n",
+       "                \n",
+       "                       [[-0.00695662, -0.04655296,  0.03048942, ...,  0.06132224,\n",
+       "                         -0.02065242, -0.02096963],\n",
+       "                        [ 0.04609573, -0.01144827, -0.06003907, ..., -0.0560175 ,\n",
+       "                          0.02100761,  0.0228186 ],\n",
+       "                        [-0.03846058,  0.03252802,  0.00800997, ...,  0.07366328,\n",
+       "                         -0.0163412 , -0.10112622],\n",
+       "                        ...,\n",
+       "                        [-0.07112869,  0.10818554, -0.01021741, ...,  0.00266738,\n",
+       "                         -0.10965998,  0.02935306],\n",
+       "                        [ 0.05889724, -0.12726855,  0.12080267, ..., -0.03079782,\n",
+       "                          0.0906305 ,  0.01734046],\n",
+       "                        [-0.02777254, -0.0228948 ,  0.0578153 , ..., -0.03823967,\n",
+       "                          0.06430312, -0.01865608]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-0.05212348,  0.06225601,  0.02271289, ...,  0.03182417,\n",
+       "                          0.08700036, -0.0555932 ],\n",
+       "                        [-0.03063332,  0.02239786,  0.04392305, ..., -0.06799869,\n",
+       "                         -0.08198479, -0.07357355],\n",
+       "                        [-0.02034809, -0.01488189,  0.04446471, ...,  0.04523299,\n",
+       "                          0.02299662, -0.08508556],\n",
+       "                        ...,\n",
+       "                        [-0.0630619 , -0.00326777,  0.07529815, ...,  0.07736243,\n",
+       "                         -0.02641278, -0.01558439],\n",
+       "                        [-0.00505954, -0.00527645,  0.00349639, ..., -0.08421702,\n",
+       "                         -0.15770313, -0.01171341],\n",
+       "                        [ 0.05193078, -0.02109497, -0.01585859, ...,  0.04012403,\n",
+       "                          0.00776516, -0.00768213]],\n",
+       "                \n",
+       "                       [[-0.01086067, -0.01013926, -0.02052613, ..., -0.04621197,\n",
+       "                         -0.02328359, -0.02165491],\n",
+       "                        [ 0.00678213,  0.04759999,  0.03928592, ...,  0.00628171,\n",
+       "                         -0.03659431, -0.14732365],\n",
+       "                        [-0.03558236, -0.02751897,  0.09481781, ...,  0.03997346,\n",
+       "                          0.00752993, -0.04923102],\n",
+       "                        ...,\n",
+       "                        [-0.01625077,  0.0435727 ,  0.0224928 , ..., -0.0035042 ,\n",
+       "                         -0.01483486,  0.00095091],\n",
+       "                        [ 0.00197387, -0.00375712, -0.09286434, ...,  0.00430453,\n",
+       "                         -0.07713191, -0.00726935],\n",
+       "                        [ 0.00977126,  0.02570093,  0.03785006, ...,  0.05807488,\n",
+       "                         -0.03257946,  0.01100252]],\n",
+       "                \n",
+       "                       [[ 0.01490742, -0.0075912 ,  0.04570058, ...,  0.02852859,\n",
+       "                         -0.06967055,  0.05600562],\n",
+       "                        [-0.06049841,  0.04676878, -0.0356914 , ..., -0.09061135,\n",
+       "                          0.02721851,  0.1031031 ],\n",
+       "                        [-0.02274511, -0.03750526, -0.04827409, ...,  0.04286766,\n",
+       "                          0.03133019, -0.09780896],\n",
+       "                        ...,\n",
+       "                        [ 0.01363596, -0.01576995,  0.03846902, ..., -0.02080678,\n",
+       "                         -0.0135158 , -0.03386639],\n",
+       "                        [ 0.03265294, -0.03636529,  0.00703335, ...,  0.02018376,\n",
+       "                          0.09976398,  0.01334047],\n",
+       "                        [ 0.04487696,  0.00229338, -0.00530353, ..., -0.04746012,\n",
+       "                         -0.04386255,  0.00277895]]], dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-2.60222312e-02,  5.84395118e-02, -4.04157117e-02, ...,\n",
+       "                          1.48216095e-02,  4.02947480e-05, -5.04574403e-02],\n",
+       "                        [-6.21017255e-02,  2.54838169e-02, -1.11651523e-02, ...,\n",
+       "                         -9.53497216e-02,  3.88340950e-02, -4.70961332e-02],\n",
+       "                        [ 6.00389540e-02,  2.73694806e-02,  4.47529890e-02, ...,\n",
+       "                          1.50397392e-02,  1.18650291e-02,  3.46209039e-03],\n",
+       "                        ...,\n",
+       "                        [-2.76118517e-02,  6.55359104e-02,  6.68228492e-02, ...,\n",
+       "                          4.72235866e-02, -2.42901035e-02, -1.06963292e-01],\n",
+       "                        [-2.77316780e-03,  1.53887141e-02,  7.71147236e-02, ...,\n",
+       "                         -5.19116297e-02, -7.69299194e-02,  5.24399942e-03],\n",
+       "                        [-2.73462981e-02,  1.70894191e-02, -8.97630677e-02, ...,\n",
+       "                          9.27861407e-02, -3.92925851e-02,  2.44278256e-02]],\n",
+       "                \n",
+       "                       [[-2.29248293e-02,  3.18437591e-02,  1.77433379e-02, ...,\n",
+       "                          8.18003118e-02,  9.53000132e-03, -2.18560249e-02],\n",
+       "                        [ 4.04776027e-03, -4.45191078e-02, -4.65767570e-02, ...,\n",
+       "                         -8.41830205e-03,  4.19528745e-02,  1.65497605e-02],\n",
+       "                        [-8.12439155e-03,  2.35381648e-02,  2.96809077e-02, ...,\n",
+       "                          1.54563710e-02, -4.40086611e-02,  5.35383215e-03],\n",
+       "                        ...,\n",
+       "                        [ 4.31634337e-02,  2.52157692e-02, -1.08905993e-02, ...,\n",
+       "                          3.34993191e-02,  9.85676330e-03, -7.43922517e-02],\n",
+       "                        [-2.42449529e-03,  5.92559986e-02,  5.11595160e-02, ...,\n",
+       "                         -2.74109095e-02, -1.07686250e-02, -2.58762110e-02],\n",
+       "                        [ 8.77888687e-03,  4.15485119e-03,  4.07865457e-02, ...,\n",
+       "                         -3.36937904e-02, -4.15369943e-02,  1.63083058e-02]],\n",
+       "                \n",
+       "                       [[ 5.59731163e-02,  9.40865837e-04, -3.99676114e-02, ...,\n",
+       "                          3.92957008e-05,  2.13426407e-02,  6.93521276e-02],\n",
+       "                        [-2.31576152e-02, -1.13683179e-01, -7.08401650e-02, ...,\n",
+       "                         -4.93601114e-02,  1.60239451e-02, -6.02123514e-03],\n",
+       "                        [-5.44834472e-02,  9.73903015e-02,  2.66058408e-02, ...,\n",
+       "                         -1.03222691e-02, -3.13847288e-02,  8.17910396e-03],\n",
+       "                        ...,\n",
+       "                        [ 4.32927050e-02,  1.65277743e-04,  2.83438880e-02, ...,\n",
+       "                         -3.37208360e-02, -8.07579886e-03,  5.44273034e-02],\n",
+       "                        [ 1.37472153e-02, -1.74567997e-02,  2.51554549e-02, ...,\n",
+       "                         -2.99388468e-02,  2.51911394e-02, -2.83543076e-02],\n",
+       "                        [-6.73618494e-03, -1.49712656e-02,  2.21684668e-02, ...,\n",
+       "                          1.94804482e-02, -8.13565031e-02, -6.77165529e-03]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[-8.68965462e-02, -4.31557857e-02,  5.51183000e-02, ...,\n",
+       "                          1.32108117e-02,  6.31776229e-02,  1.33024743e-02],\n",
+       "                        [-1.91593207e-02,  2.63363961e-02,  5.12307882e-02, ...,\n",
+       "                         -5.01694344e-03, -2.47832928e-02,  1.00958712e-01],\n",
+       "                        [-2.98409574e-02, -2.89197396e-02, -2.96355560e-02, ...,\n",
+       "                         -2.28063716e-03,  1.55943036e-02,  4.19797488e-02],\n",
+       "                        ...,\n",
+       "                        [ 4.23408533e-03, -4.96497378e-03, -4.33851629e-02, ...,\n",
+       "                          6.77778106e-03,  1.08948061e-02, -2.46948246e-02],\n",
+       "                        [ 9.09509894e-04,  2.35100873e-02, -7.15512782e-03, ...,\n",
+       "                         -3.03056045e-03,  2.06068903e-02,  6.78216899e-03],\n",
+       "                        [-4.98484494e-03, -1.67775713e-02, -2.53081992e-02, ...,\n",
+       "                         -1.72428526e-02, -5.96908294e-03, -2.81756073e-02]],\n",
+       "                \n",
+       "                       [[-4.06549759e-02, -8.54958817e-02,  3.20118181e-02, ...,\n",
+       "                         -9.01027210e-03, -5.83289266e-02,  3.13874111e-02],\n",
+       "                        [ 3.72208804e-02, -3.50959525e-02,  5.92664853e-02, ...,\n",
+       "                         -2.44024489e-02, -6.03382662e-03,  1.07590649e-02],\n",
+       "                        [ 3.33920643e-02, -5.07712923e-02, -9.08425674e-02, ...,\n",
+       "                         -6.12898469e-02, -1.19671691e-02, -4.63146809e-03],\n",
+       "                        ...,\n",
+       "                        [ 4.64089513e-02,  6.24940842e-02, -1.78400706e-02, ...,\n",
+       "                         -5.61551414e-02,  2.23524822e-03, -8.09779540e-02],\n",
+       "                        [-3.31087760e-03, -2.66115982e-02, -7.24890828e-02, ...,\n",
+       "                          1.27035836e-02,  5.93658872e-02,  8.49522091e-03],\n",
+       "                        [ 1.13903126e-02, -1.16416551e-02,  1.85670867e-03, ...,\n",
+       "                          5.33347242e-02,  6.44833669e-02, -6.31448403e-02]],\n",
+       "                \n",
+       "                       [[ 1.38157615e-02, -1.05966637e-02,  1.91061124e-02, ...,\n",
+       "                         -1.72999837e-02,  3.70878652e-02,  6.20286353e-02],\n",
+       "                        [ 4.28929105e-02, -6.32598251e-02, -3.70433405e-02, ...,\n",
+       "                         -4.56658714e-02, -1.95915881e-03,  4.43299115e-02],\n",
+       "                        [ 6.37003360e-03,  2.75323503e-02,  2.10666880e-02, ...,\n",
+       "                          2.99344473e-02, -7.49587268e-02, -2.17993911e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.61318574e-02,  1.23811746e-02, -4.05440964e-02, ...,\n",
+       "                         -4.31292690e-02, -5.03470190e-03,  8.24712291e-02],\n",
+       "                        [ 1.03769107e-02, -5.79541735e-02,  2.62607299e-02, ...,\n",
+       "                         -2.69387923e-02,  9.70299020e-02, -3.52974050e-02],\n",
+       "                        [ 3.55976028e-03, -5.50291240e-02,  1.23006878e-02, ...,\n",
+       "                         -2.95966566e-02,  1.54959597e-03, -4.86069024e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-8.38483348e-02,  2.31822193e-01,  2.13851690e-01, ...,\n",
+       "                         -2.00468123e-01, -2.14652777e-01,  2.08049536e-01],\n",
+       "                        [-2.34030768e-01,  2.41249323e-01, -2.31723949e-01, ...,\n",
+       "                         -2.54080921e-01, -2.33921319e-01, -5.12737259e-02],\n",
+       "                        [-1.99249625e-01, -2.08326742e-01,  2.03389093e-01, ...,\n",
+       "                         -2.03826278e-01,  1.76336125e-01,  1.87720701e-01],\n",
+       "                        ...,\n",
+       "                        [-2.20984355e-01, -2.07582161e-01, -1.95750266e-01, ...,\n",
+       "                          2.08051935e-01, -2.13183627e-01, -2.18951046e-01],\n",
+       "                        [ 2.34683201e-01,  2.27226704e-01, -2.16619805e-01, ...,\n",
+       "                          2.16790468e-01,  4.32744212e-02, -2.23970264e-01],\n",
+       "                        [ 1.94806844e-01, -2.15571046e-01, -2.06097513e-01, ...,\n",
+       "                         -1.86244786e-01, -2.13676661e-01,  1.89965457e-01]],\n",
+       "                \n",
+       "                       [[-4.42975238e-02,  1.57630265e-01,  1.39424905e-01, ...,\n",
+       "                         -1.41038075e-01, -1.42241895e-01,  1.25623509e-01],\n",
+       "                        [-1.77921757e-01,  2.11967751e-01, -2.26524919e-01, ...,\n",
+       "                         -2.06062928e-01, -1.65586978e-01, -6.95726722e-02],\n",
+       "                        [-1.67247087e-01, -1.81318477e-01,  1.69467747e-01, ...,\n",
+       "                         -1.53485283e-01,  1.45415887e-01,  1.55260712e-01],\n",
+       "                        ...,\n",
+       "                        [-1.56913519e-01, -1.62249088e-01, -1.55204266e-01, ...,\n",
+       "                          1.43444046e-01, -1.71046078e-01, -1.73904091e-01],\n",
+       "                        [ 1.93635926e-01,  1.84336051e-01, -1.62056550e-01, ...,\n",
+       "                          1.63478047e-01,  5.67336865e-02, -1.82519183e-01],\n",
+       "                        [ 1.30791783e-01, -1.74211666e-01, -1.54282048e-01, ...,\n",
+       "                         -1.46142587e-01, -1.47283003e-01,  1.45004332e-01]],\n",
+       "                \n",
+       "                       [[-2.23763194e-02,  1.10548735e-01,  1.13961585e-01, ...,\n",
+       "                         -1.22846209e-01, -1.08001612e-01,  1.11099504e-01],\n",
+       "                        [-1.14903681e-01,  1.45980194e-01, -1.62076205e-01, ...,\n",
+       "                         -1.62138835e-01, -9.93332192e-02, -7.59295821e-02],\n",
+       "                        [-1.45943806e-01, -1.26423165e-01,  1.24939464e-01, ...,\n",
+       "                         -1.33653075e-01,  1.16453014e-01,  1.28419548e-01],\n",
+       "                        ...,\n",
+       "                        [-1.26157984e-01, -1.08254664e-01, -8.86367038e-02, ...,\n",
+       "                          1.13142304e-01, -1.27986267e-01, -1.10967726e-01],\n",
+       "                        [ 1.16902225e-01,  1.07311599e-01, -1.10993914e-01, ...,\n",
+       "                          1.04065351e-01,  1.92454439e-02, -1.18891507e-01],\n",
+       "                        [ 1.13881476e-01, -1.50544882e-01, -1.11293599e-01, ...,\n",
+       "                         -1.21600345e-01, -1.28881380e-01,  9.90573615e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 1.93198472e-02,  6.93891384e-03, -4.82873758e-03, ...,\n",
+       "                         -1.50235975e-02, -1.00725377e-02,  1.56699177e-02],\n",
+       "                        [-2.69417316e-02, -4.01566876e-03,  4.03324189e-03, ...,\n",
+       "                         -8.51614960e-03, -3.55929099e-02, -5.41607477e-03],\n",
+       "                        [-1.07945260e-02, -1.79390702e-02,  2.18113307e-02, ...,\n",
+       "                          6.78763073e-03,  3.28163756e-03,  7.78386369e-03],\n",
+       "                        ...,\n",
+       "                        [-2.11943276e-02, -8.45365506e-03,  1.17011685e-02, ...,\n",
+       "                         -8.47376324e-03,  3.70026659e-03, -7.69790495e-03],\n",
+       "                        [ 1.43602286e-02,  3.27432156e-02, -5.92936995e-03, ...,\n",
+       "                         -1.84389483e-03, -2.91338190e-02, -2.82475073e-02],\n",
+       "                        [-2.68418621e-03, -2.05291342e-02, -1.38617102e-02, ...,\n",
+       "                         -4.46502399e-03, -1.31602371e-02,  6.19610026e-03]],\n",
+       "                \n",
+       "                       [[-1.87813640e-02, -2.63269134e-02, -1.35467686e-02, ...,\n",
+       "                         -2.06283585e-05, -5.63498447e-03, -1.40132979e-02],\n",
+       "                        [ 5.37434453e-03, -1.43898698e-02,  2.40073241e-02, ...,\n",
+       "                          8.42722040e-03, -3.47347138e-03,  1.19807702e-02],\n",
+       "                        [-1.89414732e-02, -3.28293927e-02, -9.62402113e-03, ...,\n",
+       "                         -1.11551620e-02,  4.27324371e-03, -1.12305075e-04],\n",
+       "                        ...,\n",
+       "                        [-6.51453482e-03,  2.68651464e-04,  7.75489898e-04, ...,\n",
+       "                         -8.65114154e-04,  7.63286138e-03, -1.33012878e-02],\n",
+       "                        [-1.50750997e-02, -2.27773674e-02, -2.01963820e-02, ...,\n",
+       "                          1.64635864e-03,  3.78539898e-02,  2.20775940e-02],\n",
+       "                        [ 1.35440622e-02, -4.92055668e-03, -1.59007441e-02, ...,\n",
+       "                          2.61085276e-02,  6.35240786e-03,  8.60315282e-03]],\n",
+       "                \n",
+       "                       [[-2.15803366e-02, -1.08087119e-02,  1.13709420e-02, ...,\n",
+       "                          1.47044407e-02, -2.82886941e-02,  6.49623806e-04],\n",
+       "                        [-1.10477405e-02,  1.12885274e-02, -2.90112663e-02, ...,\n",
+       "                         -3.87257524e-02,  8.90175719e-03, -7.54495966e-04],\n",
+       "                        [-1.06526650e-02, -6.90023275e-03, -4.19768179e-03, ...,\n",
+       "                         -2.53874697e-02,  2.86018532e-02,  2.44459196e-04],\n",
+       "                        ...,\n",
+       "                        [-1.67301565e-03, -2.12795567e-02, -1.19224796e-02, ...,\n",
+       "                          1.46442349e-03, -2.22806130e-02,  6.63924683e-03],\n",
+       "                        [ 8.91273934e-03,  7.14669749e-03, -9.62579716e-03, ...,\n",
+       "                          1.16560189e-02,  3.91952768e-02, -9.79734119e-04],\n",
+       "                        [ 6.38183206e-03, -1.34688336e-02, -3.29984315e-02, ...,\n",
+       "                         -1.66492760e-02, -1.30946925e-02,  1.18787466e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.16423106, -0.38469982, -0.3735132 , -0.36062995,  0.35491672,\n",
+       "                         0.30675378, -0.369757  , -0.3735996 ,  0.3361493 ,  0.37155104,\n",
+       "                         0.35529906, -0.35900527],\n",
+       "                       [ 0.36032292, -0.39533597,  0.4067043 ,  0.38665825, -0.41844591,\n",
+       "                        -0.38407317,  0.06665102, -0.40094855,  0.12981749,  0.40708718,\n",
+       "                         0.33704334,  0.20176134],\n",
+       "                       [ 0.3641929 ,  0.33772156, -0.34157228, -0.33064222,  0.35928902,\n",
+       "                         0.3505296 , -0.28917113, -0.34267342,  0.3471515 ,  0.36000434,\n",
+       "                        -0.3539097 , -0.35714412],\n",
+       "                       [-0.06508783, -0.05261745, -0.05787039,  0.09592804, -0.06872641,\n",
+       "                         0.08248961, -0.07226678,  0.00372567, -0.09185885, -0.07624064,\n",
+       "                         0.09824912, -0.08826314],\n",
+       "                       [-0.22535086,  0.21506163, -0.25742465,  0.26241964,  0.27259424,\n",
+       "                        -0.25935054,  0.24944761,  0.27162278, -0.2758658 ,  0.25455403,\n",
+       "                         0.26993272,  0.24947089],\n",
+       "                       [ 0.37321004, -0.3610165 , -0.383247  , -0.30993   ,  0.37258562,\n",
+       "                         0.36062348, -0.38371515,  0.38435444, -0.38472158, -0.34580302,\n",
+       "                         0.37965068,  0.38216782],\n",
+       "                       [-0.34043455,  0.3586589 , -0.36051637, -0.36393365,  0.35452688,\n",
+       "                         0.34583843, -0.34793818, -0.35648507,  0.33329266, -0.34890217,\n",
+       "                        -0.30480897, -0.09687542],\n",
+       "                       [ 0.310171  , -0.30914274,  0.35169226, -0.32440984, -0.31516263,\n",
+       "                         0.32149366,  0.33308968, -0.32703304,  0.32237175,  0.31805748,\n",
+       "                        -0.32791835,  0.34103537],\n",
+       "                       [ 0.36250067, -0.33055764, -0.36182252, -0.3633704 ,  0.38364542,\n",
+       "                         0.3653513 , -0.3732293 , -0.36713484,  0.3482648 ,  0.37021795,\n",
+       "                        -0.3800607 ,  0.36612317],\n",
+       "                       [-0.34819588, -0.34070075, -0.3344505 , -0.35448986, -0.3323576 ,\n",
+       "                         0.33474264, -0.34396207,  0.1850862 ,  0.34518316,  0.33939794,\n",
+       "                         0.3087188 ,  0.3154903 ],\n",
+       "                       [-0.00521268, -0.34966052,  0.39728355,  0.40286958,  0.14113763,\n",
+       "                         0.18338075,  0.3778582 ,  0.39929968,  0.40352193, -0.39589   ,\n",
+       "                         0.270306  , -0.39130443],\n",
+       "                       [-0.305632  ,  0.2914839 , -0.32076323,  0.29640222,  0.29829288,\n",
+       "                         0.30555987,  0.28363493, -0.30603474, -0.31561756, -0.30635628,\n",
+       "                         0.29470092,  0.30267796],\n",
+       "                       [-0.3363766 ,  0.27769837, -0.2979814 ,  0.10399283, -0.32105902,\n",
+       "                        -0.2958556 ,  0.3237104 , -0.32333454,  0.32940948, -0.32844833,\n",
+       "                         0.33393648, -0.32689664],\n",
+       "                       [ 0.33623135,  0.33165646,  0.33231246,  0.35222378, -0.33671835,\n",
+       "                        -0.34248263, -0.34308332, -0.34815285, -0.33481395, -0.33606663,\n",
+       "                         0.34226522,  0.33676723],\n",
+       "                       [-0.3630526 , -0.3629615 ,  0.34469852,  0.3607127 ,  0.31636032,\n",
+       "                         0.35155934, -0.28929582, -0.23626964,  0.34002408, -0.33735183,\n",
+       "                        -0.12177668,  0.37182054],\n",
+       "                       [-0.27733785,  0.30173358,  0.307238  ,  0.30162957,  0.30647627,\n",
+       "                         0.3053079 , -0.30058998, -0.27784744, -0.29578808,  0.30614874,\n",
+       "                         0.29812562, -0.3038099 ]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.0153784 ,  0.15187919,  0.16422549,  0.11557093, -0.15214883,\n",
+       "                        -0.0108751 ,  0.1496656 ,  0.16429852, -0.08917865, -0.08614036,\n",
+       "                        -0.10626242,  0.20114891],\n",
+       "                       [-0.04946842,  0.17833   , -0.17946234, -0.14044844,  0.14183456,\n",
+       "                         0.11151879,  0.00990173,  0.16708532,  0.00311802, -0.19296254,\n",
+       "                        -0.07895456, -0.05358064],\n",
+       "                       [-0.12174171, -0.10544308,  0.0556471 ,  0.14016442, -0.1203331 ,\n",
+       "                        -0.13760373,  0.0018499 ,  0.14478828, -0.09927409, -0.13758308,\n",
+       "                         0.10759134,  0.18229558],\n",
+       "                       [-0.04437685, -0.04374039, -0.04879271,  0.04663969, -0.03726794,\n",
+       "                         0.05309596, -0.06383848,  0.05368196, -0.05137848, -0.04447241,\n",
+       "                         0.04251692, -0.0448317 ],\n",
+       "                       [ 0.02396809,  0.00130846,  0.02194868, -0.01184556, -0.0030005 ,\n",
+       "                         0.03207239, -0.0103799 , -0.01964968,  0.02107432, -0.00932663,\n",
+       "                        -0.02965736, -0.00168315],\n",
+       "                       [-0.07083638,  0.04959667,  0.07980317,  0.07978249, -0.08462714,\n",
+       "                        -0.12336076,  0.10494138, -0.10706184,  0.11042266,  0.109396  ,\n",
+       "                        -0.09653424, -0.09866303],\n",
+       "                       [ 0.14528659, -0.156289  ,  0.18201059,  0.18373553, -0.16411057,\n",
+       "                        -0.18423638,  0.12427544,  0.1426011 , -0.09523565,  0.18038762,\n",
+       "                         0.02247501, -0.02538422],\n",
+       "                       [-0.08872726,  0.10119633, -0.10015967,  0.14358221,  0.1124408 ,\n",
+       "                        -0.14102799, -0.1146497 ,  0.1717651 , -0.08129647, -0.11724715,\n",
+       "                         0.10731492, -0.11043375],\n",
+       "                       [-0.2005231 ,  0.06185696,  0.07697932,  0.06992698, -0.08928881,\n",
+       "                        -0.13345496,  0.07226206,  0.12651955, -0.06262372, -0.13094625,\n",
+       "                         0.2037045 , -0.11037874],\n",
+       "                       [ 0.15709904,  0.09147388,  0.1737411 ,  0.11873791,  0.16998032,\n",
+       "                        -0.15156941,  0.19424284, -0.0556564 , -0.13813986, -0.14963529,\n",
+       "                        -0.07981193, -0.11151753],\n",
+       "                       [ 0.04470603,  0.12559803, -0.1948564 , -0.21314116,  0.02316979,\n",
+       "                        -0.06522746, -0.20179616, -0.28449327, -0.18319672,  0.22876535,\n",
+       "                        -0.00935488,  0.15519269],\n",
+       "                       [ 0.06430531, -0.03380948,  0.05436049, -0.00307257, -0.05237532,\n",
+       "                        -0.03553113, -0.0427621 ,  0.05176318,  0.02702462,  0.02999181,\n",
+       "                        -0.00480112, -0.042139  ],\n",
+       "                       [ 0.11094156, -0.02472229,  0.08882555, -0.02997557,  0.15591231,\n",
+       "                         0.10153078, -0.101006  ,  0.05814107, -0.11183677,  0.09545693,\n",
+       "                        -0.10829049,  0.04051792],\n",
+       "                       [-0.06574048, -0.03691431, -0.09033349, -0.0688434 ,  0.06487057,\n",
+       "                         0.07172374,  0.04248628,  0.1066426 ,  0.13915439,  0.03685255,\n",
+       "                        -0.07992487, -0.04460705],\n",
+       "                       [ 0.23797199,  0.19470014, -0.13750102, -0.06404502, -0.06553529,\n",
+       "                        -0.21534863,  0.04347736, -0.00221578, -0.13123493,  0.11218549,\n",
+       "                        -0.00937236, -0.15018238],\n",
+       "                       [ 0.08766682, -0.03309518, -0.04138753, -0.05194065, -0.11309406,\n",
+       "                        -0.07194766,  0.06354056,  0.08337919,  0.05211355, -0.05003445,\n",
+       "                        -0.08326187,  0.08595324]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-3.51440278e-03,  1.28068281e-02,  9.19135939e-03,\n",
+       "                         -3.05396481e-03, -6.16500911e-04,  9.72186588e-03,\n",
+       "                         -1.00571867e-02,  1.34833576e-03, -7.79370544e-03,\n",
+       "                          9.78772156e-03,  4.55377297e-03, -5.02773281e-03],\n",
+       "                        [-8.44756886e-03, -4.46955813e-03,  1.38254594e-02,\n",
+       "                         -6.54884754e-03, -9.89573449e-03, -6.60769758e-04,\n",
+       "                          7.96791725e-03,  2.92509166e-03, -1.31910515e-03,\n",
+       "                         -1.76212788e-02, -5.74108446e-03,  1.35668777e-02],\n",
+       "                        [ 7.59718334e-03, -8.26640171e-04, -4.97201836e-05,\n",
+       "                         -1.47614749e-02, -1.79277305e-02,  1.54404622e-02,\n",
+       "                         -4.48500132e-03, -9.16617166e-04,  9.43473913e-03,\n",
+       "                          3.36088677e-04, -1.03409169e-02,  6.60843856e-04],\n",
+       "                        [ 4.60142409e-03,  2.74095777e-03,  1.32161528e-02,\n",
+       "                         -1.12573681e-02, -8.54524784e-03, -7.35977059e-03,\n",
+       "                         -6.57367869e-04,  1.94121711e-02, -5.60901687e-03,\n",
+       "                          4.14388673e-03, -6.89180393e-04,  4.18218365e-03],\n",
+       "                        [ 1.26304673e-02, -4.86150337e-03,  1.53082320e-02,\n",
+       "                          5.87437907e-03, -3.57099832e-03, -1.91523856e-03,\n",
+       "                          4.05658269e-03, -1.05653126e-02,  1.40026063e-02,\n",
+       "                          8.70900322e-03, -3.38857848e-04,  2.11800099e-03],\n",
+       "                        [ 1.64542720e-02, -1.67683437e-02,  2.87021953e-03,\n",
+       "                          7.36033125e-03,  8.16178881e-03, -2.88854167e-03,\n",
+       "                          1.19893893e-03,  6.78116083e-03, -1.56503113e-03,\n",
+       "                          2.57799728e-03, -8.39453936e-03, -2.16512592e-03],\n",
+       "                        [-5.18427370e-03,  3.97628319e-04, -7.69194867e-03,\n",
+       "                         -7.96295889e-03,  6.46016421e-03, -2.63929949e-03,\n",
+       "                          7.07864203e-03,  1.10987788e-02, -4.16698726e-03,\n",
+       "                         -6.38887193e-03, -7.87641481e-03, -1.90893246e-03],\n",
+       "                        [ 3.05788917e-03, -7.70508591e-03,  3.13833193e-03,\n",
+       "                         -2.07884819e-03,  4.61988093e-04, -2.52465741e-03,\n",
+       "                         -1.88974775e-02,  1.05083664e-03, -1.42870443e-02,\n",
+       "                          6.78933924e-03, -1.02472138e-02, -2.58123642e-03],\n",
+       "                        [ 1.57928336e-02, -3.11652035e-03,  1.32909128e-02,\n",
+       "                         -5.56300860e-03, -1.19214160e-02, -1.35856699e-02,\n",
+       "                          6.65100873e-04, -3.69627029e-03,  1.49434535e-02,\n",
+       "                         -9.47162323e-03,  4.01089899e-03, -6.24648621e-03],\n",
+       "                        [-1.78829662e-03, -6.36964012e-03,  1.73489619e-02,\n",
+       "                         -1.69156715e-02, -5.49712451e-03, -8.08496494e-03,\n",
+       "                         -7.92223215e-03, -6.81683188e-03,  2.64624134e-03,\n",
+       "                          1.41025870e-03,  2.09145539e-04, -9.00311582e-03],\n",
+       "                        [-5.08373557e-03,  1.40454490e-02, -8.29873141e-03,\n",
+       "                         -2.17792904e-03, -5.96758304e-03, -8.12754687e-03,\n",
+       "                          8.44507851e-03,  5.37734432e-03, -7.22167548e-03,\n",
+       "                         -1.21807179e-03,  2.20488920e-03,  3.94411199e-03],\n",
+       "                        [ 1.02351140e-02,  3.16174538e-03,  2.71137198e-03,\n",
+       "                         -3.41729168e-03, -7.07039470e-03,  7.89679307e-03,\n",
+       "                          8.78156256e-03,  9.89588629e-03,  1.03757810e-02,\n",
+       "                          1.95973683e-02, -1.40913641e-02,  1.25801878e-03],\n",
+       "                        [-3.83818080e-03,  1.96839683e-02,  6.46740384e-03,\n",
+       "                         -1.42278466e-02,  6.28657825e-03, -2.51149316e-03,\n",
+       "                          1.66517552e-02, -1.11154914e-04, -1.50449043e-02,\n",
+       "                         -1.38718151e-02, -1.88158248e-02,  3.89999687e-03],\n",
+       "                        [-9.82810650e-03,  7.23840389e-03,  8.04117974e-03,\n",
+       "                         -4.56573907e-03, -8.66844319e-03, -2.96851899e-03,\n",
+       "                          9.36693104e-04, -1.41277921e-03, -1.32516930e-02,\n",
+       "                          1.27831437e-02, -5.95587771e-03, -1.78660899e-02],\n",
+       "                        [-5.91566134e-03,  6.21615397e-03, -4.15869895e-03,\n",
+       "                         -4.65120096e-03,  8.56087077e-03,  9.35591583e-04,\n",
+       "                         -9.51862801e-03, -2.55838083e-03, -9.28514730e-03,\n",
+       "                         -6.80608908e-03, -9.65297408e-03,  2.21744226e-03],\n",
+       "                        [ 5.31121297e-03,  2.21850746e-03, -6.31686440e-03,\n",
+       "                          2.72060931e-03,  4.40739421e-03,  6.43866928e-03,\n",
+       "                         -4.65685735e-03, -2.45278166e-03, -3.03451833e-03,\n",
+       "                          1.13026286e-02, -7.83874933e-03, -2.88648950e-03]],\n",
+       "                \n",
+       "                       [[-1.29255829e-02,  1.33011816e-02,  9.97423939e-03,\n",
+       "                          4.91580321e-03,  8.60906672e-03,  8.56189150e-03,\n",
+       "                          7.27360928e-03,  1.51449419e-03, -1.10791158e-02,\n",
+       "                          6.99038908e-04,  8.05190939e-04, -1.70294456e-02],\n",
+       "                        [ 7.62526179e-03, -6.65844604e-03, -5.96659724e-04,\n",
+       "                          1.38548086e-03,  4.48060548e-03, -9.30154510e-03,\n",
+       "                         -2.18432018e-04,  1.64746225e-03,  1.80208081e-04,\n",
+       "                          3.77233583e-03,  5.53707685e-03, -5.38419606e-03],\n",
+       "                        [-3.85529012e-03, -5.49498526e-03, -6.93165697e-03,\n",
+       "                         -8.89187120e-03,  1.25619834e-02, -8.95932782e-03,\n",
+       "                          9.45342798e-03, -6.92727917e-04,  8.13403074e-03,\n",
+       "                          1.46963941e-02, -4.15948313e-03, -7.41479965e-03],\n",
+       "                        [-1.90442596e-02, -7.77103286e-03, -3.67838028e-03,\n",
+       "                         -2.96433736e-03, -1.09969955e-02, -1.70248877e-02,\n",
+       "                          1.95688903e-02, -3.47897620e-03,  1.58165267e-03,\n",
+       "                         -8.68897513e-03, -1.78528065e-03, -1.71255190e-02],\n",
+       "                        [ 9.83172841e-03, -1.57035107e-03, -8.30506533e-03,\n",
+       "                          6.26034802e-03, -7.56533956e-03, -1.15565861e-04,\n",
+       "                          4.92884498e-03, -3.99625394e-03,  2.88844993e-03,\n",
+       "                         -6.28206879e-03,  8.64024647e-03, -2.29776371e-03],\n",
+       "                        [-1.20625710e-02,  1.18367467e-02,  1.06555307e-02,\n",
+       "                         -4.03438415e-03, -1.49667391e-03,  2.98733311e-03,\n",
+       "                         -8.68600793e-04, -3.71868000e-03, -4.97300271e-03,\n",
+       "                          4.00473922e-03, -8.08676530e-04, -1.54704892e-03],\n",
+       "                        [-3.83609696e-03,  6.88413670e-03,  2.54613836e-03,\n",
+       "                          5.47773950e-03, -1.43711697e-02,  1.31799662e-02,\n",
+       "                         -1.03495852e-03, -8.52769427e-03, -7.39515945e-03,\n",
+       "                         -6.77539827e-03,  2.11500144e-03,  1.95467239e-03],\n",
+       "                        [ 8.13793857e-03,  2.21302127e-03,  5.02331462e-03,\n",
+       "                          7.18485937e-03,  2.28810916e-03, -1.45320008e-02,\n",
+       "                         -3.96611728e-03,  3.68614378e-03, -1.72103811e-02,\n",
+       "                         -3.05140228e-03, -7.66682019e-03, -1.08588338e-02],\n",
+       "                        [-1.23977028e-02,  3.38270934e-03, -1.42664164e-02,\n",
+       "                          1.80415530e-02, -1.75846480e-02, -6.40456052e-03,\n",
+       "                         -2.37057498e-03, -1.47757838e-02,  7.56195700e-03,\n",
+       "                          9.45305359e-03,  7.78122060e-03,  1.02762086e-02],\n",
+       "                        [-3.82918934e-03,  1.60034071e-03, -7.77876470e-03,\n",
+       "                          1.33397728e-02,  1.18430490e-02,  4.98617810e-05,\n",
+       "                          1.30701559e-02,  9.02611576e-03,  4.07260330e-03,\n",
+       "                          2.39335559e-03,  2.40562297e-03, -3.25017539e-03],\n",
+       "                        [-8.06587748e-04,  1.26644485e-02,  8.72251578e-03,\n",
+       "                         -5.45040518e-03, -1.73145602e-03,  1.73480762e-03,\n",
+       "                         -5.13556274e-03,  1.80205062e-03,  6.46137225e-04,\n",
+       "                          6.70739915e-04,  5.22772875e-03, -3.31539568e-03],\n",
+       "                        [-1.07927714e-02, -7.33546494e-03, -4.29824786e-03,\n",
+       "                          1.02433376e-04, -5.57086337e-03, -1.02092093e-03,\n",
+       "                         -4.55509359e-03,  8.16038996e-03,  8.92126840e-03,\n",
+       "                          1.19936960e-02, -9.58633423e-03, -7.31446501e-03],\n",
+       "                        [ 2.58941157e-03,  1.61812436e-02,  1.25333546e-02,\n",
+       "                          1.31313223e-02,  1.45212887e-03,  2.96309148e-03,\n",
+       "                          1.70129482e-02, -3.18545871e-03,  9.50108469e-03,\n",
+       "                          1.12201851e-02,  1.86892953e-02, -1.09134382e-02],\n",
+       "                        [ 5.86659182e-03,  7.87080918e-03, -3.16623296e-03,\n",
+       "                          2.74886331e-03, -2.27011624e-03,  2.19338876e-03,\n",
+       "                          5.21903671e-03,  2.66190851e-03,  4.20619873e-03,\n",
+       "                         -5.73166180e-03, -6.65490422e-03, -1.68249682e-02],\n",
+       "                        [ 6.51477603e-03,  1.72201376e-02, -2.36054067e-03,\n",
+       "                         -1.12952981e-02,  4.46611550e-03,  9.25166160e-03,\n",
+       "                          9.00524389e-03,  8.10446404e-03,  1.75741222e-02,\n",
+       "                         -8.05154629e-03,  1.02305319e-02,  4.19014716e-04],\n",
+       "                        [ 1.16775753e-02, -1.46105085e-02, -3.06233508e-03,\n",
+       "                          6.35563117e-03, -1.24542378e-02, -3.08239786e-03,\n",
+       "                         -7.98272062e-03, -3.44542001e-04,  3.26864561e-03,\n",
+       "                         -1.17341252e-02,  1.21376979e-04,  1.80926919e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([0.9969315 , 1.0359559 , 1.0315224 , 0.9849864 , 1.015801  ,\n",
+       "                         1.005627  , 0.9874842 , 0.9969067 , 0.99558216, 1.0109723 ,\n",
+       "                         1.0234433 , 0.9991636 , 0.9988123 , 1.0318247 , 1.0211638 ,\n",
+       "                         1.0181438 , 1.0320866 , 1.0064743 , 1.0121417 , 0.9712312 ,\n",
+       "                         1.0209255 , 1.0460172 , 0.99270165, 1.0035357 , 0.99127185,\n",
+       "                         1.0275663 , 1.0406407 , 0.99490535, 1.001791  , 0.9999673 ,\n",
+       "                         1.0058154 , 0.99693173, 0.9894646 , 1.0103531 , 1.0356901 ,\n",
+       "                         1.0126542 , 1.0072185 , 1.0374453 , 0.9751607 , 0.9979825 ,\n",
+       "                         1.0254827 , 0.99742836, 1.0186007 , 1.0166698 , 1.0066754 ,\n",
+       "                         1.015171  , 1.01679   , 1.00437   , 1.0015148 , 0.99255323,\n",
+       "                         1.0045346 , 1.0716761 , 1.0488757 , 0.999746  , 1.0062506 ,\n",
+       "                         1.023134  , 0.98512036, 1.000971  , 1.0161233 , 1.0405521 ,\n",
+       "                         1.0237843 , 0.9783412 , 1.0045804 , 1.0090035 , 1.0159477 ,\n",
+       "                         1.0154358 , 0.96614903, 1.0346043 , 1.0275455 , 1.0052668 ,\n",
+       "                         1.0063258 , 0.99357855, 0.9910557 , 1.0226693 , 1.0048059 ,\n",
+       "                         1.0167528 , 0.99693376, 1.0340425 , 1.0295672 , 1.0218896 ,\n",
+       "                         1.0248531 , 0.99951583, 1.007127  , 0.9905791 , 1.0054238 ,\n",
+       "                         1.0253313 , 1.0236849 , 0.9722623 , 1.0092759 , 0.9838695 ,\n",
+       "                         1.0091549 , 1.01045   , 0.99850976, 1.003939  , 1.0145742 ,\n",
+       "                         1.0122032 , 1.0363253 , 1.0223064 , 1.0261148 , 1.013842  ,\n",
+       "                         0.97486174, 1.0200647 , 1.01195   , 0.97909224, 1.0034782 ,\n",
+       "                         0.97253907, 0.9704656 , 1.0108095 , 1.019121  , 1.0319759 ,\n",
+       "                         1.0244851 , 1.0042377 , 1.0418612 , 1.0193982 , 0.98685116,\n",
+       "                         1.0076736 , 1.0171342 , 1.0051624 , 1.0157962 , 1.002355  ,\n",
+       "                         1.0048748 , 0.9854516 , 1.0005583 , 0.9929194 , 1.0041345 ,\n",
+       "                         0.99567336, 0.97145903, 1.014572  , 0.99024326, 1.0049794 ,\n",
+       "                         1.005694  , 1.0293807 , 1.0348918 , 0.98891205, 1.0214592 ,\n",
+       "                         1.0343784 , 0.9974625 , 1.0336651 , 1.0159554 , 1.009517  ,\n",
+       "                         1.0213977 , 1.017891  , 1.0457859 , 0.9782976 , 0.99135834,\n",
+       "                         1.0085051 , 1.0210464 , 0.99015844, 1.062849  , 1.0274574 ,\n",
+       "                         0.99645656, 1.0038768 , 1.0021027 , 1.0151567 , 1.0023288 ,\n",
+       "                         1.0051237 , 1.0334389 , 0.97966415, 1.0279682 , 1.0157349 ,\n",
+       "                         0.99453247, 1.0490587 , 1.0010473 , 0.978003  , 1.0055332 ,\n",
+       "                         1.0280823 , 1.0189446 , 1.0045984 , 1.0096755 , 1.0110795 ,\n",
+       "                         1.010487  , 1.0333279 , 1.0420829 , 1.0059249 , 0.994315  ,\n",
+       "                         1.057765  , 1.0192627 , 1.0429702 , 1.053575  , 1.0210158 ,\n",
+       "                         1.0225272 , 1.027447  , 0.9746826 , 1.0187615 , 1.0175383 ,\n",
+       "                         1.0171152 , 1.0221983 , 1.0156734 , 1.0274174 , 1.0035317 ,\n",
+       "                         1.023852  , 0.9781956 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-6.85399259e-03,  3.49939987e-02,  1.21939313e-02,  7.00289663e-03,\n",
+       "                         -2.84625012e-02,  1.08894687e-02,  1.14317602e-02,  5.31119877e-04,\n",
+       "                         -1.20807504e-02, -2.53669452e-02, -1.38663230e-02, -2.45413911e-02,\n",
+       "                          3.12566315e-03, -3.34403589e-02, -2.49050651e-02, -3.51863094e-02,\n",
+       "                         -3.06198839e-02, -1.66457202e-02, -2.35300343e-02,  9.21525061e-03,\n",
+       "                         -5.47070839e-02,  2.90595908e-02, -1.14936028e-02,  2.27075554e-02,\n",
+       "                         -9.33005102e-03, -1.04101971e-02,  4.68960702e-02, -2.82690041e-02,\n",
+       "                         -8.87826364e-03,  2.93897931e-02,  1.09149814e-02,  3.39894090e-03,\n",
+       "                          3.80432904e-02, -1.57318916e-02,  1.27893016e-02,  2.51961667e-02,\n",
+       "                          1.02447895e-02, -2.86124647e-02, -2.84046819e-03, -2.03090701e-02,\n",
+       "                          2.78504677e-02,  2.64279023e-02,  6.48994697e-03,  1.24164717e-02,\n",
+       "                          3.56704369e-02,  1.63176341e-03,  5.34731708e-03,  3.32465097e-02,\n",
+       "                         -1.84127502e-02,  7.83201400e-03, -1.57840957e-03,  6.27451017e-02,\n",
+       "                         -4.62098606e-02, -1.34509420e-02,  2.52033193e-02, -5.26064336e-02,\n",
+       "                         -3.50736752e-02, -2.23494507e-02,  1.18345963e-02,  4.26737703e-02,\n",
+       "                         -3.53784598e-02, -2.34259595e-03,  1.45399068e-02, -8.22275598e-03,\n",
+       "                          2.36013755e-02,  2.16632951e-02,  2.96655321e-03, -1.81439761e-02,\n",
+       "                         -3.52690704e-02,  2.45213807e-02, -2.36667562e-02,  1.55049330e-02,\n",
+       "                          3.03323995e-02,  1.42984604e-02,  1.54546760e-02,  3.63423787e-02,\n",
+       "                          1.28306113e-02,  3.05887386e-02,  3.71386148e-02, -3.07099824e-03,\n",
+       "                         -1.55997351e-02, -2.06704624e-02, -3.44661251e-03,  1.09177697e-02,\n",
+       "                         -1.73887815e-02,  3.64674553e-02, -2.63101477e-02,  4.08331072e-03,\n",
+       "                         -6.52079657e-03,  2.11077482e-02, -2.43641455e-02, -9.33902524e-03,\n",
+       "                         -2.14265306e-02,  2.64686197e-02,  1.49264745e-02,  7.82742165e-03,\n",
+       "                          6.50000235e-04, -4.15059663e-02,  1.89712290e-02, -1.90072544e-02,\n",
+       "                          1.46152293e-02,  4.48593870e-02, -1.28153572e-02,  3.75432638e-03,\n",
+       "                          1.98702887e-02, -2.83633708e-04,  8.32533929e-03,  9.34107229e-05,\n",
+       "                         -1.90886576e-03, -9.71705187e-03,  1.61674749e-02, -1.85295125e-03,\n",
+       "                          7.14225508e-03, -2.73624919e-02, -2.55387509e-03, -1.12724118e-03,\n",
+       "                          1.85906123e-02, -2.97149625e-02,  4.02317978e-02, -1.97510310e-02,\n",
+       "                          1.78207867e-02,  2.03406569e-02,  2.69312393e-02,  1.89924911e-02,\n",
+       "                          3.84589611e-03, -5.42263826e-03,  3.81167559e-03,  2.77643744e-02,\n",
+       "                          1.56566370e-02,  3.10532358e-02, -6.96316315e-03, -2.76779886e-02,\n",
+       "                          1.15464441e-03,  4.57731134e-04, -1.05021391e-02, -7.42463116e-03,\n",
+       "                         -3.92725272e-03, -4.03682962e-02, -3.32555297e-04, -1.48589090e-02,\n",
+       "                          2.83816513e-02, -5.50642144e-03,  3.29398774e-02, -6.12563780e-03,\n",
+       "                          4.73114895e-04,  1.87995285e-02,  4.34074178e-02,  7.52707245e-03,\n",
+       "                         -4.21776809e-02, -1.98691562e-02,  2.23468821e-02, -2.30735913e-02,\n",
+       "                         -3.02154068e-02, -1.44386357e-02, -2.66777873e-02, -2.04052161e-02,\n",
+       "                         -4.06471565e-02, -1.50648935e-03,  6.54783053e-03, -5.13115618e-03,\n",
+       "                          1.93733722e-02,  2.58082990e-02, -3.45452428e-02, -2.06032339e-02,\n",
+       "                          1.86892655e-02, -4.15844470e-02,  7.87161291e-03, -1.31361950e-02,\n",
+       "                          3.92404161e-02,  3.18503343e-02,  2.69362354e-03,  1.83110908e-02,\n",
+       "                         -2.87646055e-02, -3.88961025e-02, -1.27332853e-02,  1.51178809e-02,\n",
+       "                         -3.98628181e-03, -2.47202143e-02, -1.49840591e-02, -2.09513959e-02,\n",
+       "                          9.46386252e-03,  3.05391778e-03,  2.81525757e-02,  3.17124762e-02,\n",
+       "                         -1.79900415e-02, -5.57004847e-03, -2.40996070e-02, -4.68908390e-03,\n",
+       "                         -3.55240591e-02, -2.24711336e-02,  3.18121724e-02,  1.49385640e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[-0.00378348,  0.0204091 ,  0.01135249, ..., -0.01550941,\n",
+       "                           0.00612383, -0.00509007],\n",
+       "                         [ 0.02067552,  0.01613462, -0.02470975, ...,  0.00266561,\n",
+       "                           0.0119758 ,  0.00032748],\n",
+       "                         [-0.00194279, -0.02958387,  0.00653261, ...,  0.00088051,\n",
+       "                          -0.01011066,  0.00685293],\n",
+       "                         ...,\n",
+       "                         [ 0.02418215, -0.00869673,  0.05250982, ..., -0.00619787,\n",
+       "                          -0.00458857, -0.00833396],\n",
+       "                         [ 0.02385004, -0.04703965,  0.05451006, ..., -0.00348573,\n",
+       "                          -0.02210503, -0.01034559],\n",
+       "                         [-0.02042757, -0.02202994,  0.01550441, ...,  0.00671552,\n",
+       "                           0.02117145, -0.0054143 ]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([ 1.21712941e-03,  1.11744599e-03, -1.39847826e-02, -4.46790047e-02,\n",
+       "                         -1.32631529e-02, -2.92864088e-02, -7.41573889e-03,  6.73092669e-03,\n",
+       "                          1.53066171e-03, -5.23377862e-03, -1.14760995e-02, -1.66477170e-02,\n",
+       "                         -4.09049494e-03, -1.08475713e-02, -2.35699415e-02,  3.27810459e-03,\n",
+       "                          1.12106688e-02, -1.67731475e-02,  3.39100137e-03,  4.08213399e-03,\n",
+       "                         -1.64552964e-02, -3.49954255e-02,  1.14198693e-03, -3.04259043e-02,\n",
+       "                         -4.51649614e-02,  9.18964390e-03, -6.32018456e-03,  1.50255440e-02,\n",
+       "                         -1.56057393e-02, -3.77505533e-02,  1.02112731e-02,  1.20568899e-02,\n",
+       "                          9.48533823e-04,  2.23602150e-02, -4.44539794e-04, -1.57161858e-02,\n",
+       "                          5.90274716e-03, -2.07363591e-02,  1.08804699e-04, -2.73037283e-03,\n",
+       "                         -5.21600954e-02, -2.77979579e-02,  3.28371464e-03, -5.89027768e-03,\n",
+       "                          1.54655073e-02,  9.94858565e-04, -8.03477783e-03, -5.80484048e-02,\n",
+       "                         -9.35775600e-03, -1.94576681e-02, -4.11564596e-02, -5.90110663e-03,\n",
+       "                          1.36351474e-02,  1.37825571e-02, -1.25644533e-02, -1.41049242e-02,\n",
+       "                          5.44565497e-03, -7.13166548e-03, -1.03337190e-03, -1.57395061e-02,\n",
+       "                          1.25784706e-02, -2.08498891e-02,  1.63245909e-02, -9.50962398e-03,\n",
+       "                          9.10767261e-03,  5.58687747e-03,  4.33255592e-03, -4.32211161e-03,\n",
+       "                          2.85559148e-03, -4.84286919e-02, -6.73415198e-04, -2.80464184e-03,\n",
+       "                          9.54244868e-04, -2.66200341e-02, -3.81675758e-03, -7.84792192e-03,\n",
+       "                         -1.45485466e-02,  2.05056788e-03,  1.86129361e-02, -6.48720283e-03,\n",
+       "                         -1.47726778e-02,  1.76946633e-02,  1.08199576e-02, -2.14629225e-03,\n",
+       "                         -6.79762010e-03, -4.92806686e-03, -3.61140966e-02, -3.56992008e-04,\n",
+       "                         -1.06048677e-02, -2.29637269e-02,  8.50004330e-03, -1.94537397e-02,\n",
+       "                          1.94888599e-02, -6.98236655e-03,  1.07396282e-02, -3.05227078e-02,\n",
+       "                         -2.00488232e-02,  7.70343048e-03,  3.34120169e-02, -8.79255310e-03,\n",
+       "                         -1.55596714e-02, -7.34469807e-03, -6.77908584e-03, -2.96232570e-02,\n",
+       "                         -1.22853303e-02, -1.17631704e-02,  3.26141194e-02,  1.06761511e-02,\n",
+       "                          2.18307804e-02,  2.30603595e-03, -5.68503002e-03,  6.37491373e-03,\n",
+       "                          9.27514117e-03,  1.26113594e-02, -1.67415049e-02,  9.93379671e-03,\n",
+       "                          6.58909651e-03, -3.54674971e-03, -2.77315476e-03, -4.64916788e-03,\n",
+       "                         -3.05924797e-03, -2.19699666e-02, -3.74519676e-02, -4.18436900e-02,\n",
+       "                         -1.65367890e-02, -1.44111924e-02,  8.43369053e-04, -1.62784513e-02,\n",
+       "                          2.01944634e-02, -7.64198182e-03, -3.98157444e-03, -3.42435646e-03,\n",
+       "                          3.35985981e-03,  1.19394138e-02, -9.76176281e-03,  4.34873346e-03,\n",
+       "                         -3.60846147e-02,  2.08347850e-02, -2.55428664e-02,  5.29307686e-03,\n",
+       "                          7.71038141e-03, -8.88793916e-03, -2.54604965e-02,  2.38521453e-02,\n",
+       "                         -2.18547843e-02,  3.36336158e-03, -2.14393474e-02, -7.10055977e-03,\n",
+       "                         -1.73013825e-02,  2.24922579e-02, -1.66900642e-02,  1.66960284e-02,\n",
+       "                          6.52999710e-03,  7.15585146e-03, -1.62478574e-02, -1.41648820e-03,\n",
+       "                          1.00488234e-02,  3.87262274e-03,  5.99228544e-03,  1.33825680e-02,\n",
+       "                          2.53655855e-03, -3.62779177e-03, -2.84535019e-03, -1.70501228e-02,\n",
+       "                          1.55098876e-02, -1.77575126e-02, -2.02389602e-02, -2.13988982e-02,\n",
+       "                         -1.37847895e-03,  1.25355367e-02,  8.04237928e-03,  6.47399691e-04,\n",
+       "                         -2.86702476e-02, -3.05145793e-03,  2.28235461e-02,  1.65228378e-02,\n",
+       "                         -1.78421922e-02, -8.96514859e-03,  1.25002535e-03, -8.40720348e-03,\n",
+       "                          1.28656700e-02, -3.27507257e-02, -2.82659996e-02,  1.39765022e-02,\n",
+       "                         -3.36523317e-02, -4.56795581e-02, -5.74486982e-03,  3.83558474e-03,\n",
+       "                          1.67551469e-02, -1.05215646e-02, -5.34546515e-03,  3.31974728e-03,\n",
+       "                         -1.74205303e-02, -1.74690187e-02, -6.83817489e-05, -1.24099236e-02,\n",
+       "                          5.46208676e-03,  1.31493127e-02, -7.69328931e-03,  9.23285075e-03,\n",
+       "                         -9.05792508e-03, -1.34851644e-02,  1.66751328e-03, -1.80504378e-03,\n",
+       "                          7.81689212e-03,  1.51372924e-02,  1.65556483e-02, -3.96846011e-02,\n",
+       "                         -1.06191784e-02, -1.21018719e-02, -3.75225544e-02, -4.54310281e-03,\n",
+       "                         -2.06056377e-03, -4.42739716e-03, -2.42362749e-02, -1.16142165e-02,\n",
+       "                         -1.25911944e-02,  2.55287276e-03, -8.17842083e-04, -2.07597595e-02,\n",
+       "                          3.08572371e-02, -4.24903259e-03,  1.95597857e-02,  1.33561976e-02,\n",
+       "                         -2.19328981e-02,  3.21771321e-03, -2.02778075e-02, -3.51373223e-03,\n",
+       "                         -3.29087935e-02,  3.64454114e-04,  1.57634746e-02, -9.44056921e-03,\n",
+       "                         -2.15312708e-02, -1.89597011e-02, -7.62946263e-04, -4.13846644e-03,\n",
+       "                          2.73370510e-03, -4.90105106e-03,  1.98669620e-02,  1.67902987e-02,\n",
+       "                          8.66163895e-03, -1.91626567e-02,  4.20852890e-03,  1.04909698e-02,\n",
+       "                         -9.93329939e-03,  6.97246706e-03, -1.75434034e-02, -1.98909435e-02,\n",
+       "                          6.95742760e-03, -2.06778403e-02, -1.35637140e-02,  2.72055157e-02,\n",
+       "                          1.02242995e-02,  1.31756882e-04,  5.80279715e-03,  2.92883627e-03,\n",
+       "                         -1.56155406e-02, -5.42097492e-03,  9.83800739e-03, -1.54213645e-02,\n",
+       "                          1.14859343e-02,  8.67995154e-03,  4.96590696e-03,  9.76129621e-03,\n",
+       "                         -3.31700221e-02,  8.64369981e-03, -1.86243858e-02, -7.16004241e-03,\n",
+       "                         -1.37374476e-02,  1.20013952e-02, -1.91051152e-03, -6.08156435e-03,\n",
+       "                         -1.75130498e-02, -5.35639301e-02,  1.58307776e-02, -1.81044228e-02,\n",
+       "                          2.49834335e-03,  4.17423155e-03, -2.53396686e-02,  1.46856969e-02,\n",
+       "                         -2.22624149e-02,  8.67950264e-03, -2.30857432e-02,  1.77531019e-02,\n",
+       "                          1.62986182e-02, -1.85275618e-02, -3.44653381e-03,  2.50066677e-03,\n",
+       "                         -4.63302433e-03,  8.05620942e-03, -1.76385753e-02,  2.49336511e-02,\n",
+       "                         -1.64703224e-02,  2.60244764e-04, -7.67652225e-03,  4.86556021e-03,\n",
+       "                         -4.83469814e-02, -1.27337119e-02, -1.92696191e-02, -2.72822492e-02,\n",
+       "                          5.47242071e-03, -1.16454146e-03,  1.35646807e-02,  1.00370515e-02,\n",
+       "                          9.59197991e-03, -3.18160839e-03, -2.19840482e-02, -2.08951300e-03,\n",
+       "                         -7.41670933e-03, -1.38713727e-02, -3.06752212e-02, -2.93379258e-02,\n",
+       "                         -1.01506848e-04, -1.31825907e-02,  8.28257762e-03,  2.29409393e-02,\n",
+       "                          1.04126334e-03,  1.24420030e-02,  2.03921460e-03,  3.19668208e-03,\n",
+       "                          1.63461957e-02, -2.01644730e-02,  1.15988161e-02,  1.46984840e-02,\n",
+       "                         -1.44577175e-02, -2.31328122e-02, -1.28451874e-02,  8.55914876e-03,\n",
+       "                          4.48380248e-04, -4.31475863e-02,  3.74619290e-03, -4.84132720e-03,\n",
+       "                          3.09969764e-03,  2.40912568e-02, -1.70390829e-02,  1.16004581e-02,\n",
+       "                          1.96048785e-02, -8.40850361e-03, -1.36118289e-02, -4.04037535e-03,\n",
+       "                         -8.99504311e-03,  1.45752728e-03, -1.71515364e-02, -2.67615989e-02,\n",
+       "                          2.85765361e-02, -2.18445025e-02,  2.68292148e-02,  1.94653422e-02,\n",
+       "                         -1.48401968e-02, -1.09210033e-02, -3.67749594e-02,  2.95452308e-03,\n",
+       "                          1.65821351e-02,  1.22377174e-02, -1.08304415e-02, -3.87950316e-02,\n",
+       "                          1.57719143e-02,  9.33526363e-03, -1.64565141e-03, -1.89905555e-03,\n",
+       "                          5.45689790e-03,  9.76760779e-03,  1.12611400e-02, -4.11848910e-03,\n",
+       "                          5.89184044e-03, -1.99133698e-02, -1.23440409e-02, -5.60856657e-03,\n",
+       "                          6.69311732e-04, -1.27601391e-02,  1.02170166e-02, -1.72962993e-02,\n",
+       "                         -6.78496994e-03, -1.96674056e-02,  1.11403549e-02, -3.00172754e-02,\n",
+       "                          1.86359212e-02,  1.79452356e-02, -2.69969227e-03,  7.34739378e-03,\n",
+       "                          2.32792739e-03, -1.85412634e-02,  1.82294555e-03, -2.54414720e-03,\n",
+       "                         -1.57666784e-02,  1.92940161e-02, -1.07259555e-02,  1.19666588e-02,\n",
+       "                         -2.25211051e-03,  1.81680697e-03, -3.47250630e-03, -9.40402783e-03,\n",
+       "                         -7.67046772e-03,  1.07285883e-02, -3.94243794e-03,  8.33209325e-03,\n",
+       "                          1.47054866e-02,  3.48920003e-02, -1.14637204e-02, -1.54867256e-03,\n",
+       "                         -4.01444919e-03,  2.25149244e-02, -9.72189568e-03,  1.13570466e-04,\n",
+       "                          2.40310710e-02, -2.67354939e-02, -5.41334227e-03,  2.85329465e-02,\n",
+       "                         -5.52699494e-04, -8.31121579e-04,  9.93520720e-04, -1.19860629e-02,\n",
+       "                         -3.63373831e-02,  2.90836431e-02,  1.69258043e-02, -1.38433175e-02,\n",
+       "                         -1.18911071e-02,  1.70295115e-03,  1.74647104e-03,  2.80275159e-02,\n",
+       "                         -4.80082491e-03, -2.78006736e-02,  7.48452544e-03,  4.70855914e-04,\n",
+       "                          1.40010659e-03, -4.33022331e-04, -6.01151987e-05,  3.57630779e-03,\n",
+       "                          2.56394409e-03,  2.71348306e-03, -2.88691302e-03, -2.72004027e-02,\n",
+       "                         -9.17448010e-03,  3.83244967e-03, -3.38208303e-02, -3.44089651e-03,\n",
+       "                         -7.52198882e-03,  4.73338878e-06, -1.09319473e-02, -2.54172180e-03,\n",
+       "                         -1.33185787e-03,  1.17676770e-02, -3.67837702e-03,  5.30108344e-03,\n",
+       "                          1.81533769e-02, -5.34134265e-03, -4.28129733e-02, -7.23955745e-04,\n",
+       "                          6.41434162e-05, -2.29048077e-02, -1.75935719e-02,  1.55059323e-02,\n",
+       "                          2.45801383e-03, -6.09927520e-05,  1.55003862e-02, -4.82059643e-02,\n",
+       "                         -6.13219046e-04, -1.29873790e-02, -1.17985131e-02, -1.36594269e-02,\n",
+       "                         -3.64093967e-02,  6.50251424e-03,  9.31435172e-03, -4.21814807e-03,\n",
+       "                         -6.24975096e-03, -2.04446837e-02, -6.86652865e-03, -2.78066806e-02,\n",
+       "                          8.10640771e-03, -9.03519150e-03,  8.32730252e-03, -8.23402777e-03,\n",
+       "                         -1.77198574e-02, -1.49527630e-02,  1.89031772e-02,  1.89668722e-02,\n",
+       "                         -2.32934374e-02, -2.54948549e-02,  5.30088274e-03,  7.84592266e-05,\n",
+       "                         -1.24219712e-02,  2.99021974e-02,  1.65144668e-03,  3.23658949e-03,\n",
+       "                          3.46182380e-03, -5.54047665e-03,  1.73629876e-02, -7.28723034e-03,\n",
+       "                         -8.10160127e-04, -3.61903966e-03, -3.78185362e-02, -1.07352436e-02,\n",
+       "                         -2.66686138e-02, -1.68437045e-02, -2.88786180e-02, -2.56704912e-02,\n",
+       "                         -9.99005884e-03, -2.59445347e-02,  3.15692485e-03,  1.21186450e-02,\n",
+       "                          7.68181751e-04,  1.01973154e-02, -2.93356571e-02,  2.74304189e-02,\n",
+       "                         -5.11944247e-03, -2.34087408e-02, -3.31219332e-03,  2.49027386e-02,\n",
+       "                         -2.99181864e-02, -4.30644071e-03, -4.84546721e-02,  1.37732318e-02,\n",
+       "                         -1.08511113e-02,  9.09818523e-03, -5.97642958e-02, -2.40001362e-03,\n",
+       "                         -2.44693402e-02, -2.61431150e-02, -5.63228130e-02, -5.69147766e-02,\n",
+       "                         -1.34355966e-02,  1.08059049e-02, -2.51438115e-02,  2.43897345e-02,\n",
+       "                          2.00368688e-02, -3.21862362e-02, -7.11673358e-03, -2.02482264e-03,\n",
+       "                          1.69970561e-02,  1.04994839e-02,  2.40762550e-02,  1.22807072e-02,\n",
+       "                          8.96592438e-03, -1.48127731e-02, -4.73734341e-04, -2.52799341e-03,\n",
+       "                          4.95032547e-03,  8.90917610e-03, -2.14294400e-02, -1.38719659e-02,\n",
+       "                         -7.85260927e-03, -2.72178762e-02, -7.67520443e-03,  7.45872548e-03,\n",
+       "                         -2.06694868e-03,  1.26448721e-02, -1.38665866e-02,  1.62336770e-02,\n",
+       "                         -1.89894938e-03,  2.43713753e-03, -3.50183845e-02, -2.78931893e-02,\n",
+       "                          8.56034085e-03, -2.59791454e-03, -1.73034631e-02, -2.86361184e-02,\n",
+       "                         -5.27288672e-03, -4.77060303e-03, -1.94337231e-03, -1.25429239e-02,\n",
+       "                          2.13629450e-03,  1.28392419e-02,  1.39512727e-02,  8.32761638e-03,\n",
+       "                          2.00579725e-02, -2.15874356e-03, -1.66641194e-02, -8.43333139e-04,\n",
+       "                         -2.06374768e-02, -4.71002935e-03, -3.87405567e-02,  4.49309405e-03,\n",
+       "                         -8.73806700e-03, -6.21388026e-04,  4.24497062e-03, -8.02812446e-03,\n",
+       "                         -1.94833558e-02,  1.42147695e-03, -1.47265205e-02, -1.60043798e-02,\n",
+       "                          1.58656407e-02, -2.53966227e-02, -8.12013913e-03,  1.92887418e-03,\n",
+       "                          1.36667909e-02, -5.50148962e-03,  3.92105430e-03, -1.55275753e-02,\n",
+       "                          1.08085116e-02,  5.63313160e-03,  6.38731057e-03, -1.17396507e-02,\n",
+       "                          3.83905647e-03,  2.81073805e-02, -1.32573741e-02, -1.12737311e-04,\n",
+       "                         -1.13992719e-02, -4.50117923e-02,  6.19430421e-03,  6.57175388e-03,\n",
+       "                          6.27242122e-03, -3.82218370e-03, -3.24477218e-02, -4.73353453e-03,\n",
+       "                          1.49306348e-02,  8.50765780e-03, -1.80551375e-03,  1.08695142e-02,\n",
+       "                         -1.91586670e-02, -8.83677322e-03, -2.01941133e-02, -2.03755405e-02,\n",
+       "                         -3.80617054e-03, -2.54426431e-02,  6.67224522e-05, -2.47236225e-04,\n",
+       "                          4.69957432e-03,  1.04258144e-02,  2.79125143e-02,  8.67276452e-03,\n",
+       "                          2.08652043e-03,  3.94323579e-04, -2.29147403e-03,  3.11773154e-03,\n",
+       "                         -8.63924809e-03, -4.87285014e-03,  1.04771433e-02,  8.81836843e-03,\n",
+       "                         -2.02935953e-02, -3.66574293e-03, -1.72846783e-02, -3.04471068e-02,\n",
+       "                          1.12433557e-03, -1.83333475e-02, -1.29820651e-03,  1.62148353e-04,\n",
+       "                         -3.05455755e-02,  8.47839937e-03, -2.97118854e-02,  2.02719774e-02,\n",
+       "                          3.47412797e-03, -2.69159861e-02, -5.54035010e-04, -2.95973988e-03,\n",
+       "                          4.54130163e-03, -5.08381939e-03, -2.05832124e-02,  3.78382839e-02,\n",
+       "                          2.99660265e-02, -5.05679334e-03, -6.64304430e-03, -1.09957159e-02,\n",
+       "                          1.51456976e-02,  8.22816882e-03,  1.49936322e-02,  1.32917576e-02,\n",
+       "                          1.46918762e-02,  1.61370391e-03,  2.04168055e-02,  9.69626475e-03,\n",
+       "                          4.14515613e-03,  2.26347093e-02,  1.49708344e-02,  1.28237531e-02,\n",
+       "                         -7.43865082e-03, -2.93543935e-02, -6.53200522e-02, -5.42526599e-03,\n",
+       "                          8.26254301e-03,  1.43309776e-03,  1.58000141e-02, -2.23250892e-02,\n",
+       "                          6.71493355e-03, -7.37267965e-03,  2.66001414e-04, -9.52360686e-03,\n",
+       "                         -6.70215394e-03,  7.12418137e-03,  1.52985044e-02, -3.28066535e-02,\n",
+       "                         -3.59565169e-02, -3.52373607e-02, -9.85178910e-03, -7.71370716e-03,\n",
+       "                          7.25477934e-03, -3.71771082e-02, -1.37529597e-02, -4.51815017e-02,\n",
+       "                         -2.23332271e-03, -1.54914130e-02,  2.34068185e-02, -1.42283523e-02,\n",
+       "                          5.88655705e-03, -1.76403560e-02,  2.16605188e-03,  5.97196119e-03,\n",
+       "                         -1.72784999e-02,  5.36067924e-03, -3.19605507e-02,  4.08004504e-03,\n",
+       "                         -4.14101686e-03, -1.85644794e-02,  2.51514055e-02, -1.67821962e-02,\n",
+       "                          2.56560054e-02, -3.78645360e-02, -1.02061154e-02, -3.53764705e-02,\n",
+       "                         -1.55158835e-02, -4.76077432e-03, -1.36364102e-02, -3.05698207e-03,\n",
+       "                          4.68083797e-03, -1.94948856e-02,  2.15629041e-02,  3.09187896e-03,\n",
+       "                         -1.74710117e-02, -4.33999151e-02, -2.63247490e-02,  2.02457421e-02,\n",
+       "                          1.12916930e-02, -3.16064805e-02,  1.14372261e-02, -1.09964097e-02,\n",
+       "                          1.48417773e-02, -7.04414956e-03, -4.30010892e-02,  3.89331649e-03,\n",
+       "                          2.49399785e-02, -1.83765758e-02, -8.07058811e-03, -2.50721220e-02,\n",
+       "                         -9.01548192e-04,  1.44568430e-02,  1.21710286e-03,  5.64520387e-03,\n",
+       "                         -2.09744815e-02,  5.01332525e-03, -5.36186248e-03,  9.06061789e-04,\n",
+       "                          6.38368493e-03, -1.53965401e-02,  9.75043606e-03,  4.15975507e-03,\n",
+       "                          7.27052800e-03, -1.92049742e-02,  3.18862149e-03,  1.27868410e-02,\n",
+       "                         -1.57332923e-02, -2.91440031e-03, -9.26277880e-03,  1.98450387e-02,\n",
+       "                         -2.40688492e-02,  6.82184240e-03,  1.29345879e-02, -4.33823327e-03,\n",
+       "                         -2.22863276e-02,  2.80247885e-03,  1.14938861e-03, -1.31881731e-02,\n",
+       "                         -5.79492599e-02, -1.34389708e-02, -3.96496430e-02, -6.93540508e-03,\n",
+       "                          2.13500988e-02,  7.80632207e-03, -6.45534089e-03, -1.40285550e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[-0.00052601, -0.00091733, -0.01139702, ...,  0.00473077,\n",
+       "                          -0.00057246, -0.00768256],\n",
+       "                         [ 0.00977903, -0.00192228, -0.01191035, ...,  0.00261494,\n",
+       "                          -0.01204226,  0.00491333],\n",
+       "                         [-0.01176421, -0.03240357, -0.02388848, ..., -0.01289275,\n",
+       "                           0.05155848,  0.02732125],\n",
+       "                         ...,\n",
+       "                         [ 0.00684952, -0.03641722, -0.01548092, ...,  0.02650181,\n",
+       "                           0.00601252,  0.01533274],\n",
+       "                         [ 0.00579466, -0.0222997 ,  0.01490036, ..., -0.01592839,\n",
+       "                          -0.00955954, -0.02380987],\n",
+       "                         [-0.00343813, -0.00589791, -0.01730914, ...,  0.00521022,\n",
+       "                          -0.00768803, -0.0075852 ]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-1.28697157e-02,  1.56626326e-03,  2.25128457e-02,  1.23283323e-02,\n",
+       "                         -6.11981750e-03,  3.96887632e-03,  3.51140695e-03,  3.42887337e-03,\n",
+       "                         -1.16077121e-02, -2.31974386e-02, -6.31319685e-03, -1.61810145e-02,\n",
+       "                          7.03598955e-04, -3.46243158e-02, -6.75723050e-03, -3.32775265e-02,\n",
+       "                         -3.23656090e-02, -2.12191250e-02, -2.66066119e-02, -1.05098393e-02,\n",
+       "                         -2.23392900e-02,  4.56696609e-03, -1.92382205e-02,  2.19231639e-02,\n",
+       "                         -4.03383654e-03, -9.16029618e-04,  2.79391725e-02, -1.40444925e-02,\n",
+       "                          9.45466105e-03,  2.78000422e-02,  2.44674156e-03, -1.10390398e-03,\n",
+       "                          3.16991471e-02, -1.06008239e-02,  1.30848903e-02,  2.52418164e-02,\n",
+       "                          1.40522709e-02, -2.37777587e-02, -3.68189067e-03,  4.97014029e-04,\n",
+       "                          1.74174104e-02,  1.04839979e-02, -2.69745057e-03,  4.99991793e-03,\n",
+       "                          3.34201194e-02, -5.77967055e-03,  5.42377122e-03,  1.50190340e-02,\n",
+       "                         -2.74546016e-02,  7.14053120e-03, -3.73244775e-03,  3.75339612e-02,\n",
+       "                         -3.71782817e-02, -5.57640428e-03,  2.10267361e-02, -3.58375274e-02,\n",
+       "                         -3.72432754e-03, -1.87591556e-02,  1.12272957e-02,  3.31541970e-02,\n",
+       "                         -2.46070866e-02, -4.36177012e-03,  1.32657085e-02, -1.26082338e-02,\n",
+       "                          1.87053643e-02,  1.70804709e-02,  1.33639071e-02, -1.90669075e-02,\n",
+       "                         -1.29393823e-02,  1.90141499e-02, -1.11113507e-02,  8.58172216e-03,\n",
+       "                          2.49483865e-02,  1.24078095e-02,  1.06699467e-02,  1.13949152e-02,\n",
+       "                          1.65756866e-02,  2.97233220e-02,  2.61469726e-02, -1.11253718e-02,\n",
+       "                         -2.03499384e-02, -2.30461136e-02,  1.52888778e-03,  3.20105348e-03,\n",
+       "                         -9.56892036e-03,  1.25000197e-02, -1.73106156e-02,  1.35570867e-02,\n",
+       "                          5.73282829e-04,  2.49358434e-02, -1.41815478e-02,  3.60490708e-03,\n",
+       "                         -5.09327091e-03,  7.10161589e-03,  1.12671433e-02,  2.82256369e-05,\n",
+       "                         -1.35730754e-03, -3.16210911e-02,  1.23561407e-02, -1.58919953e-02,\n",
+       "                          6.86849281e-03,  1.74242146e-02, -1.18547864e-02,  2.29167519e-03,\n",
+       "                          1.86833702e-02, -3.04882269e-04,  3.55654978e-03,  1.38436528e-02,\n",
+       "                         -7.21841678e-03,  4.40225657e-03,  8.65148474e-03,  5.37445256e-03,\n",
+       "                          1.36929452e-02, -8.82796571e-03,  2.56787357e-03, -1.14671309e-02,\n",
+       "                          2.40873136e-02, -2.66355798e-02,  6.69640210e-03, -1.01693552e-02,\n",
+       "                          1.75453555e-02,  7.63980485e-03,  1.95996501e-02, -5.47533808e-03,\n",
+       "                          1.52602233e-02, -9.54087451e-03,  2.50047026e-03,  1.87017508e-02,\n",
+       "                          1.49874371e-02,  2.26895958e-02, -1.91373024e-02, -2.82493141e-02,\n",
+       "                         -2.49937293e-03,  7.17947073e-03, -1.85740720e-02,  1.69082712e-02,\n",
+       "                         -7.14652846e-03, -2.10556984e-02,  1.28920283e-02, -1.23076010e-02,\n",
+       "                          2.80572921e-02, -5.43307746e-03,  1.29268924e-02,  2.33644992e-03,\n",
+       "                         -1.01666187e-03,  4.56599984e-03,  3.91974896e-02,  1.07824057e-02,\n",
+       "                         -2.94113643e-02, -2.30929591e-02,  2.04315297e-02, -1.43474080e-02,\n",
+       "                         -1.33732483e-02, -5.68833202e-03, -1.43602882e-02, -1.85296349e-02,\n",
+       "                         -2.66867913e-02,  1.13412656e-03, -5.38206520e-03,  6.23613782e-03,\n",
+       "                          1.70935206e-02,  1.38554061e-02, -2.49322355e-02, -1.04984548e-02,\n",
+       "                          2.00184267e-02, -2.85697710e-02,  7.44458474e-03, -1.23284226e-02,\n",
+       "                          1.01375710e-02,  3.18448953e-02, -2.56668800e-03,  2.41091419e-02,\n",
+       "                         -2.23143548e-02, -3.50988880e-02, -1.33587681e-02,  1.70347169e-02,\n",
+       "                          3.36722308e-03, -2.06941124e-02, -7.01428344e-03, -1.55244842e-02,\n",
+       "                         -7.21133361e-03, -1.65471155e-03,  1.15091950e-02,  1.58406775e-02,\n",
+       "                         -1.95811503e-02, -1.25027495e-02, -2.45968197e-02, -1.35051878e-02,\n",
+       "                         -2.95459423e-02, -1.77637059e-02,  1.02170315e-02,  1.12621617e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (2): TFXLNetLayer(\n",
+       "              (rel_attn): TFXLNetRelativeAttention(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.0057871 , 1.0332363 , 1.0212928 , 0.9999723 , 1.033825  ,\n",
+       "                         1.0029198 , 1.0058116 , 1.0149196 , 1.0082165 , 1.0243226 ,\n",
+       "                         1.0096213 , 0.99784964, 1.0176283 , 1.043794  , 1.027943  ,\n",
+       "                         1.0534654 , 1.0061653 , 0.98920953, 1.0062771 , 0.97829   ,\n",
+       "                         1.0035368 , 1.0533798 , 1.0020728 , 1.0023332 , 1.0052046 ,\n",
+       "                         1.0174168 , 1.1191556 , 1.0025481 , 1.0015385 , 1.017479  ,\n",
+       "                         1.018475  , 0.9849396 , 0.97287726, 1.0402071 , 1.0285083 ,\n",
+       "                         1.0055572 , 1.0146956 , 1.0404365 , 1.0037504 , 1.0148568 ,\n",
+       "                         1.0283828 , 0.99278283, 1.0248725 , 1.022264  , 1.0001345 ,\n",
+       "                         1.0017784 , 1.0346408 , 0.9981527 , 1.0122838 , 0.98120767,\n",
+       "                         1.0215337 , 1.179416  , 1.0340352 , 1.0046171 , 1.024731  ,\n",
+       "                         1.0585825 , 0.98917764, 0.9997533 , 1.0075992 , 1.0392004 ,\n",
+       "                         1.0552956 , 0.9886238 , 1.023406  , 1.0362253 , 1.0081662 ,\n",
+       "                         1.0156927 , 0.9865759 , 1.0417926 , 1.0455471 , 1.0137287 ,\n",
+       "                         1.0280967 , 1.0077677 , 0.99449986, 1.0082475 , 1.0126015 ,\n",
+       "                         1.0092647 , 1.0124716 , 1.0199153 , 1.0341136 , 1.0260425 ,\n",
+       "                         1.0281512 , 1.024284  , 1.0110937 , 1.0095159 , 1.0170563 ,\n",
+       "                         1.0178514 , 1.039387  , 0.99133825, 1.0179511 , 0.9966715 ,\n",
+       "                         1.0261171 , 1.0154284 , 1.015804  , 1.0061381 , 1.0099896 ,\n",
+       "                         1.0000523 , 1.0007659 , 1.0363859 , 1.0635108 , 1.014356  ,\n",
+       "                         0.98796177, 1.030319  , 1.0046592 , 0.97458965, 1.0108676 ,\n",
+       "                         0.9928793 , 0.9558847 , 0.9925133 , 1.0085704 , 1.0427246 ,\n",
+       "                         1.0145886 , 1.0274279 , 1.0207925 , 1.0429372 , 1.0046413 ,\n",
+       "                         1.0268769 , 1.0306258 , 0.99699676, 1.0163515 , 0.9908004 ,\n",
+       "                         1.0140766 , 0.9912396 , 1.0172839 , 1.0117    , 1.0167714 ,\n",
+       "                         0.99298805, 0.9969487 , 1.0303023 , 0.9882936 , 1.0046637 ,\n",
+       "                         1.016881  , 1.0134546 , 1.0471387 , 0.99485767, 1.011368  ,\n",
+       "                         1.0557008 , 0.9968898 , 1.0360297 , 1.0016598 , 1.0374504 ,\n",
+       "                         1.0292593 , 1.0112805 , 1.0623062 , 0.98729765, 1.0029736 ,\n",
+       "                         1.031483  , 1.0078738 , 0.99074715, 1.0818259 , 1.0101855 ,\n",
+       "                         0.9861434 , 1.004235  , 1.0262736 , 1.0209796 , 1.001568  ,\n",
+       "                         1.0096675 , 1.0404271 , 0.9835611 , 1.0241301 , 1.0369594 ,\n",
+       "                         1.0074248 , 1.0424756 , 0.9942452 , 0.99875724, 1.033678  ,\n",
+       "                         1.0853536 , 1.0074345 , 1.0366769 , 1.0091823 , 1.0067376 ,\n",
+       "                         1.0233204 , 1.0372906 , 1.0645523 , 0.9926111 , 1.0274863 ,\n",
+       "                         1.041852  , 1.0358343 , 1.0027225 , 1.0693008 , 1.0230322 ,\n",
+       "                         1.0631505 , 1.0215074 , 0.9722386 , 1.0141385 , 1.025084  ,\n",
+       "                         1.0470202 , 1.0165733 , 1.0124934 , 1.0319704 , 1.0043234 ,\n",
+       "                         1.0158199 , 0.99025494], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([ 7.59856217e-03,  4.24561910e-02,  7.99102522e-03,  1.71857737e-02,\n",
+       "                         -1.03637101e-02,  3.16838245e-03,  3.60901840e-03,  4.19523055e-03,\n",
+       "                         -6.87508844e-03, -6.87943026e-03, -5.10497158e-03, -8.22180882e-03,\n",
+       "                          8.77292734e-03, -2.58738408e-03, -2.08214354e-02, -1.79159064e-02,\n",
+       "                         -1.11684657e-03, -7.38986069e-04, -1.19412383e-02,  1.42388390e-02,\n",
+       "                         -1.66760180e-02,  2.08622776e-03, -2.57751974e-03, -8.82026181e-03,\n",
+       "                          1.15794945e-03, -1.44918431e-02,  4.93793860e-02, -3.27913207e-03,\n",
+       "                         -4.28729737e-03, -4.89461794e-03,  1.88506544e-02, -6.22330047e-03,\n",
+       "                          4.18603653e-03, -1.38241351e-02,  1.14280488e-02, -2.84738315e-04,\n",
+       "                          8.89829081e-03, -1.11413759e-03,  4.17278428e-03, -1.35365466e-03,\n",
+       "                          1.28041944e-02,  1.15375938e-02, -6.41845446e-03,  9.64137726e-03,\n",
+       "                          2.59947684e-03, -4.25522914e-03,  9.96628869e-03,  1.62370726e-02,\n",
+       "                          7.52341375e-03, -9.28277243e-03,  5.81439584e-03,  7.83476010e-02,\n",
+       "                         -6.71153562e-03,  2.24725250e-03,  2.08039153e-02, -5.01795486e-02,\n",
+       "                         -1.73597485e-02, -8.89169611e-03,  7.42495526e-04,  6.78870874e-03,\n",
+       "                         -3.18759643e-02,  1.50445709e-03, -3.69086815e-03,  6.01144927e-03,\n",
+       "                          3.52614955e-03,  2.10542441e-03, -3.93726258e-03, -9.05793067e-03,\n",
+       "                         -5.51527715e-04, -4.15784819e-03, -1.57790836e-02,  1.25657795e-02,\n",
+       "                          5.08130435e-03,  6.50481321e-03,  1.63632873e-02,  1.73130240e-02,\n",
+       "                         -2.43367138e-03,  1.85030117e-03,  1.54299662e-03, -5.31600381e-05,\n",
+       "                          1.75052956e-02,  1.71876000e-03,  4.45382996e-03, -4.30531753e-03,\n",
+       "                         -1.16280653e-02,  2.11134292e-02, -2.23673265e-02,  7.13334139e-03,\n",
+       "                         -1.41991712e-02, -1.31303091e-02, -1.44726951e-02, -8.39852076e-03,\n",
+       "                         -1.02737797e-02,  2.51649469e-02, -2.17619655e-03,  3.18338871e-02,\n",
+       "                          6.02364819e-03, -3.28926258e-02,  8.89856555e-03, -1.79745432e-03,\n",
+       "                          6.78307377e-03,  1.72448792e-02, -1.61184631e-02,  7.45668355e-03,\n",
+       "                          1.26204602e-02,  9.98649187e-03,  2.81444062e-02,  2.30935658e-03,\n",
+       "                         -1.77086389e-03, -1.28207710e-02,  8.45415145e-03, -3.29405675e-03,\n",
+       "                         -5.72317652e-03, -2.71530338e-02, -1.77807845e-02,  1.11351041e-02,\n",
+       "                         -1.00642750e-02, -1.56395938e-02,  3.36114839e-02, -1.72200203e-02,\n",
+       "                         -9.74771846e-03,  3.32418010e-02, -1.05427857e-02,  2.02785395e-02,\n",
+       "                         -6.68006064e-03,  2.28713281e-04, -8.21154565e-03,  3.10888048e-02,\n",
+       "                         -4.19865269e-03,  6.00909209e-03, -7.54437642e-03, -5.50453411e-03,\n",
+       "                          1.89670883e-02, -1.07095791e-02,  5.02277690e-04,  7.32586626e-03,\n",
+       "                         -4.09575505e-03, -2.85738874e-02,  2.87018227e-03, -2.15759897e-03,\n",
+       "                          1.81071796e-02, -6.09889021e-03,  1.60865113e-02, -8.74181185e-03,\n",
+       "                          1.72416996e-02,  8.38244241e-03,  1.15022238e-03,  1.16248718e-02,\n",
+       "                         -2.85649057e-02, -9.58522037e-03, -8.16637039e-05, -2.19359994e-02,\n",
+       "                         -3.00931241e-02, -4.67210496e-03, -2.23919563e-02, -7.52190128e-03,\n",
+       "                         -1.04973540e-02, -8.82059149e-03,  3.65124480e-03, -1.63061526e-02,\n",
+       "                         -3.07336613e-03,  4.76394920e-03, -7.85821769e-03, -1.34929726e-02,\n",
+       "                          9.88984201e-03, -6.62930831e-02, -1.58152245e-02, -1.60966665e-02,\n",
+       "                          1.41415140e-02,  1.45050827e-02, -1.96240973e-04, -7.24124722e-04,\n",
+       "                         -1.78274736e-02, -6.59982441e-03,  8.05374142e-03,  1.00671398e-02,\n",
+       "                         -9.55150276e-03, -6.95818989e-03, -2.66786981e-02, -1.08323013e-02,\n",
+       "                          7.38756062e-05,  1.03484967e-03,  1.49620511e-02,  2.81481780e-02,\n",
+       "                          4.79391264e-03,  6.22483063e-03, -3.92652489e-03,  5.56191429e-03,\n",
+       "                         -9.80110746e-03, -1.08523564e-02,  2.62236502e-02, -4.83083492e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.06234125,  0.08348493,  0.05271349, ..., -0.04905114,\n",
+       "                          0.06002877,  0.07014746],\n",
+       "                        [ 0.01078404,  0.01441736, -0.00631271, ..., -0.00126975,\n",
+       "                         -0.00407829, -0.02982283],\n",
+       "                        [ 0.02175241,  0.07973423, -0.02206543, ..., -0.10772092,\n",
+       "                         -0.12188936,  0.01044118],\n",
+       "                        ...,\n",
+       "                        [ 0.00032629,  0.03708308, -0.06995119, ..., -0.02210348,\n",
+       "                         -0.03649073,  0.04809769],\n",
+       "                        [ 0.01826541,  0.00481216,  0.01058115, ..., -0.01575439,\n",
+       "                         -0.01393961,  0.00625093],\n",
+       "                        [-0.02408669,  0.05260627,  0.03774166, ..., -0.01596219,\n",
+       "                          0.05104807,  0.03937525]],\n",
+       "                \n",
+       "                       [[ 0.02779769, -0.03340751, -0.01536217, ...,  0.06302352,\n",
+       "                          0.0216154 , -0.00151173],\n",
+       "                        [-0.00963598,  0.02632163, -0.05148864, ..., -0.00842124,\n",
+       "                         -0.04520626,  0.06177414],\n",
+       "                        [-0.03409315,  0.00782742,  0.01486818, ...,  0.05234182,\n",
+       "                         -0.03087698, -0.05324713],\n",
+       "                        ...,\n",
+       "                        [ 0.02451777, -0.06283689,  0.03903849, ...,  0.02784257,\n",
+       "                          0.0149576 , -0.03789261],\n",
+       "                        [ 0.02468628,  0.0147682 ,  0.01011168, ...,  0.00017318,\n",
+       "                          0.00441966, -0.02091843],\n",
+       "                        [ 0.04509341, -0.02262525,  0.06885201, ..., -0.072127  ,\n",
+       "                         -0.02234302, -0.02799728]],\n",
+       "                \n",
+       "                       [[-0.02003128, -0.02902497, -0.02048736, ...,  0.00256414,\n",
+       "                         -0.02856174,  0.02460355],\n",
+       "                        [-0.02152068, -0.01040548, -0.00720556, ...,  0.02811522,\n",
+       "                         -0.03958235,  0.06043673],\n",
+       "                        [-0.00299573, -0.05975921,  0.02358114, ...,  0.01305199,\n",
+       "                          0.06924431,  0.01198481],\n",
+       "                        ...,\n",
+       "                        [-0.01442131, -0.01633287,  0.06204606, ...,  0.03050506,\n",
+       "                          0.00815727, -0.05987699],\n",
+       "                        [-0.00394178,  0.01078314,  0.0028196 , ..., -0.00517203,\n",
+       "                          0.02769065, -0.00503104],\n",
+       "                        [ 0.03049225, -0.01576989,  0.00254666, ..., -0.02251267,\n",
+       "                         -0.03106628, -0.01190897]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.00339118, -0.03024405, -0.03525003, ..., -0.0079357 ,\n",
+       "                          0.00962144,  0.02216074],\n",
+       "                        [ 0.06947004, -0.06062919,  0.04593202, ...,  0.04568027,\n",
+       "                          0.05047652, -0.05793334],\n",
+       "                        [ 0.11836407,  0.06272735,  0.00067443, ...,  0.00550534,\n",
+       "                          0.03630037, -0.02081595],\n",
+       "                        ...,\n",
+       "                        [-0.06524166,  0.02345604, -0.01313383, ..., -0.03301872,\n",
+       "                         -0.03735002,  0.00037564],\n",
+       "                        [-0.03938673, -0.03632034,  0.00092862, ...,  0.01558411,\n",
+       "                         -0.00075396,  0.0101775 ],\n",
+       "                        [-0.04090933,  0.01356268, -0.04852635, ..., -0.00499562,\n",
+       "                          0.02987474,  0.02531883]],\n",
+       "                \n",
+       "                       [[ 0.01056831, -0.04749409, -0.03694331, ...,  0.05555313,\n",
+       "                         -0.00110841, -0.0184141 ],\n",
+       "                        [-0.00554059,  0.0175445 , -0.01705179, ...,  0.00723137,\n",
+       "                         -0.03601098, -0.01009218],\n",
+       "                        [-0.0150836 ,  0.00666366,  0.06633871, ...,  0.04543896,\n",
+       "                         -0.02726434, -0.06670793],\n",
+       "                        ...,\n",
+       "                        [ 0.00740686, -0.07095704,  0.01820407, ...,  0.01863899,\n",
+       "                         -0.00714878, -0.04596868],\n",
+       "                        [ 0.01260169,  0.03565225, -0.01171624, ..., -0.02946363,\n",
+       "                          0.00646609, -0.01957519],\n",
+       "                        [-0.0440557 ,  0.07693814,  0.07808633, ..., -0.05995817,\n",
+       "                          0.04248045,  0.05745625]],\n",
+       "                \n",
+       "                       [[-0.07753773, -0.07089977, -0.07884057, ...,  0.02975712,\n",
+       "                         -0.08073553, -0.0621541 ],\n",
+       "                        [-0.00550022,  0.0085198 , -0.06444216, ...,  0.03531897,\n",
+       "                         -0.05257558,  0.05456509],\n",
+       "                        [-0.04056812, -0.09348527,  0.0530269 , ...,  0.11246442,\n",
+       "                          0.15517569, -0.06778258],\n",
+       "                        ...,\n",
+       "                        [ 0.02758401, -0.00359426,  0.04186517, ...,  0.01238764,\n",
+       "                          0.02573269, -0.01919786],\n",
+       "                        [ 0.00237221,  0.01049417,  0.01227861, ..., -0.01254319,\n",
+       "                          0.01223521,  0.01139719],\n",
+       "                        [ 0.02927969, -0.0667349 ,  0.00143145, ..., -0.01885801,\n",
+       "                         -0.04819303, -0.0389314 ]]], dtype=float32)>\n",
+       "                (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-3.94772254e-02, -6.41306937e-02, -4.13827300e-02, ...,\n",
+       "                          3.15646194e-02, -3.12801488e-02, -2.09214948e-02],\n",
+       "                        [-4.11971509e-02,  4.98755760e-02,  1.32313436e-02, ...,\n",
+       "                         -4.50457074e-02, -3.14410054e-03,  1.69730727e-02],\n",
+       "                        [-2.37825289e-02, -3.33431289e-02, -3.15161385e-02, ...,\n",
+       "                          2.36281566e-02,  5.52808158e-02,  3.62378657e-02],\n",
+       "                        ...,\n",
+       "                        [ 2.09275335e-02, -3.74232717e-02,  5.80713265e-02, ...,\n",
+       "                          2.71868668e-02,  2.72399876e-02, -3.90068926e-02],\n",
+       "                        [-2.15795711e-02, -8.08936171e-03,  2.82208771e-02, ...,\n",
+       "                          1.46864895e-02, -9.80850868e-03,  2.31318623e-02],\n",
+       "                        [ 2.45238580e-02, -4.93060239e-02, -2.00063130e-03, ...,\n",
+       "                          1.31882494e-02, -1.79088470e-02, -4.58018892e-02]],\n",
+       "                \n",
+       "                       [[-4.79925536e-02, -7.13883620e-03, -1.70200616e-02, ...,\n",
+       "                          4.30573616e-03, -2.58588381e-02, -4.00255322e-02],\n",
+       "                        [ 2.06479542e-02, -9.69429209e-04,  4.45427969e-02, ...,\n",
+       "                         -3.11642475e-02,  4.58971709e-02, -6.06159568e-02],\n",
+       "                        [-2.16270816e-02, -2.47788690e-02,  8.99176486e-03, ...,\n",
+       "                         -3.50549109e-02,  2.83869740e-04,  2.76593976e-02],\n",
+       "                        ...,\n",
+       "                        [-9.84367728e-03,  4.42362092e-02, -3.88747454e-02, ...,\n",
+       "                         -3.33305337e-02, -1.39302714e-02,  3.08513269e-02],\n",
+       "                        [ 9.72330163e-05,  3.61726678e-04, -2.07237955e-02, ...,\n",
+       "                         -9.40586999e-03,  1.05890594e-02,  4.07860382e-03],\n",
+       "                        [-4.40552495e-02,  3.58287096e-02, -3.81228030e-02, ...,\n",
+       "                          6.48950562e-02,  5.46173677e-02,  2.66422555e-02]],\n",
+       "                \n",
+       "                       [[ 1.22328307e-02, -1.93379074e-02, -5.46430354e-04, ...,\n",
+       "                          2.66239718e-02,  6.38371892e-03, -1.59700308e-02],\n",
+       "                        [ 1.72801521e-02, -1.16762826e-02, -1.04958480e-02, ...,\n",
+       "                          1.92294214e-02,  3.55268340e-03, -2.62587853e-02],\n",
+       "                        [-6.89166319e-03,  3.61419693e-02,  1.63935386e-02, ...,\n",
+       "                          2.16508824e-02, -4.29583341e-02, -4.16333824e-02],\n",
+       "                        ...,\n",
+       "                        [-4.65792557e-03, -7.89630506e-03,  1.71894040e-02, ...,\n",
+       "                          9.70898382e-03, -6.56816317e-03, -1.70818679e-02],\n",
+       "                        [ 2.78675579e-03,  2.10756604e-02, -1.41859008e-02, ...,\n",
+       "                         -1.24089019e-02,  1.63065996e-02, -1.41478134e-02],\n",
+       "                        [-2.85000205e-02,  3.22563052e-02, -3.39996041e-05, ...,\n",
+       "                          4.72247694e-03,  2.15071123e-02,  1.35786245e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 2.42358502e-02,  5.12744300e-02,  4.75583598e-02, ...,\n",
+       "                          2.62557948e-03,  2.60219891e-02, -4.89659782e-04],\n",
+       "                        [-1.37466248e-02,  2.39855181e-02, -4.84416597e-02, ...,\n",
+       "                         -3.52280214e-02, -2.97512561e-02,  9.76292882e-03],\n",
+       "                        [-5.24343699e-02, -1.95866022e-02,  1.47199852e-03, ...,\n",
+       "                         -4.41279216e-03, -8.53088200e-02,  1.96372997e-02],\n",
+       "                        ...,\n",
+       "                        [ 5.60169592e-02, -1.12776738e-03,  1.79300662e-02, ...,\n",
+       "                          3.84874344e-02,  2.32992452e-02, -2.62540132e-02],\n",
+       "                        [ 2.83117890e-02,  4.90925834e-02, -3.87031138e-02, ...,\n",
+       "                         -1.95439383e-02,  1.16576357e-02, -4.29532193e-02],\n",
+       "                        [ 1.17599946e-02,  1.08255483e-02,  4.30425294e-02, ...,\n",
+       "                         -8.63413513e-03,  8.09687935e-03, -1.47575168e-02]],\n",
+       "                \n",
+       "                       [[-2.11161710e-02,  6.08768780e-03, -1.51375579e-02, ...,\n",
+       "                         -3.95964719e-02, -7.04731699e-03, -1.02093741e-02],\n",
+       "                        [-6.73621707e-03,  4.62087430e-03,  8.06042086e-03, ...,\n",
+       "                          1.11963777e-02, -1.01704914e-02,  2.15507653e-02],\n",
+       "                        [-1.29628582e-02, -3.79046947e-02,  3.97373326e-02, ...,\n",
+       "                          1.78747326e-02,  2.81659290e-02, -4.53772619e-02],\n",
+       "                        ...,\n",
+       "                        [-1.97285041e-02,  2.54876073e-02, -4.10858989e-02, ...,\n",
+       "                         -1.10911569e-02, -7.09744217e-03,  2.43405420e-02],\n",
+       "                        [-3.26183736e-02, -3.64847258e-02,  2.64330506e-02, ...,\n",
+       "                         -2.24458892e-03,  2.19186093e-03,  3.57530229e-02],\n",
+       "                        [ 3.74469198e-02, -4.28201444e-02, -8.65745079e-03, ...,\n",
+       "                         -1.68640856e-02, -5.06263934e-02, -5.84868081e-02]],\n",
+       "                \n",
+       "                       [[ 2.95374412e-02,  2.48611113e-03,  5.80458995e-03, ...,\n",
+       "                          2.90872622e-02,  4.03674766e-02, -1.68689992e-02],\n",
+       "                        [ 2.24053338e-02, -1.48960911e-02,  6.33362308e-03, ...,\n",
+       "                          4.86489423e-02,  7.50374282e-03, -4.05806713e-02],\n",
+       "                        [ 2.55827680e-02,  1.85767263e-02,  2.60028038e-02, ...,\n",
+       "                         -1.36788404e-02, -7.14080334e-02, -1.08517408e-02],\n",
+       "                        ...,\n",
+       "                        [-4.35072295e-02, -3.15411463e-02, -2.18501817e-02, ...,\n",
+       "                         -3.80530059e-02, -5.09869009e-02, -2.31897011e-02],\n",
+       "                        [-1.93768069e-02, -2.13274453e-02,  1.93289435e-03, ...,\n",
+       "                         -7.42514804e-03,  1.38062406e-02,  2.07752399e-02],\n",
+       "                        [-2.49380674e-02,  4.27890457e-02,  2.95457132e-02, ...,\n",
+       "                         -5.99988271e-03,  2.97254454e-02,  3.55788060e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-1.58644877e-02, -1.62909031e-02,  5.00995666e-02, ...,\n",
+       "                          5.24207130e-02, -3.80506441e-02,  1.04527883e-02],\n",
+       "                        [-3.09245456e-02,  4.52832878e-02, -3.65436375e-02, ...,\n",
+       "                         -2.97559872e-02,  2.07313546e-03,  3.96508761e-02],\n",
+       "                        [-2.23282147e-02, -4.96926345e-02, -8.38533193e-02, ...,\n",
+       "                          4.02813032e-02,  7.18669407e-03,  1.00084869e-02],\n",
+       "                        ...,\n",
+       "                        [ 5.54994717e-02, -6.85440842e-04,  6.61751628e-02, ...,\n",
+       "                          6.98446389e-03,  3.30823362e-02,  1.21366838e-02],\n",
+       "                        [ 4.69539873e-02,  5.99038340e-02,  3.56819779e-02, ...,\n",
+       "                         -3.75066176e-02,  1.15419859e-02, -1.12357801e-02],\n",
+       "                        [ 1.96084157e-02,  3.45024988e-02,  3.51261348e-02, ...,\n",
+       "                          2.33536810e-02,  1.73673294e-02,  1.88735779e-02]],\n",
+       "                \n",
+       "                       [[ 7.00034783e-04,  4.43254225e-02, -3.61993797e-02, ...,\n",
+       "                         -1.01138074e-02,  1.26488609e-02, -1.71760190e-02],\n",
+       "                        [ 3.64920273e-02, -1.57374945e-02,  4.31107357e-02, ...,\n",
+       "                         -1.70343544e-03, -1.85093228e-02, -1.72214750e-02],\n",
+       "                        [ 2.55862717e-02, -2.66940910e-02,  1.74765587e-02, ...,\n",
+       "                          2.03380585e-02, -2.64162403e-02,  4.29758057e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.22729898e-03,  3.42231169e-02, -3.71583700e-02, ...,\n",
+       "                         -1.99909993e-02, -3.34201287e-03, -1.14894807e-02],\n",
+       "                        [-2.31620437e-03, -1.74390487e-02,  1.49598904e-03, ...,\n",
+       "                         -1.63866114e-02,  1.97996534e-02, -1.46451220e-02],\n",
+       "                        [-2.22812425e-02, -1.40978247e-02,  3.97709124e-02, ...,\n",
+       "                          5.21076983e-03,  4.97731641e-02,  3.60605456e-02]],\n",
+       "                \n",
+       "                       [[-5.76440394e-02,  6.59279339e-03,  6.30571172e-02, ...,\n",
+       "                          7.76241207e-03,  9.36959125e-03,  4.67094360e-03],\n",
+       "                        [-7.77855283e-03,  4.28477377e-02, -1.87937953e-02, ...,\n",
+       "                         -1.09600574e-02,  3.76247801e-02, -1.16656590e-02],\n",
+       "                        [ 2.77719218e-02,  1.60257760e-02,  3.61022800e-02, ...,\n",
+       "                          2.16220301e-02,  3.12309824e-02, -2.29762644e-02],\n",
+       "                        ...,\n",
+       "                        [-8.95163789e-03,  4.01562974e-02,  8.33359361e-02, ...,\n",
+       "                          1.10300109e-02, -1.99703388e-02,  9.19944141e-03],\n",
+       "                        [-3.77306454e-02, -3.66421454e-02,  2.64238920e-02, ...,\n",
+       "                         -2.43516099e-02,  3.56255807e-02, -2.17668223e-03],\n",
+       "                        [-4.75421138e-02,  5.34872413e-02, -3.61219794e-03, ...,\n",
+       "                          6.75379634e-02,  8.22325796e-03, -3.92688029e-02]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 1.03400545e-02, -1.56616718e-02,  1.80531628e-02, ...,\n",
+       "                          4.09547333e-03,  6.04682369e-03, -2.47979490e-03],\n",
+       "                        [-6.01073680e-03,  1.35822203e-02, -1.94223188e-02, ...,\n",
+       "                          1.54315904e-02,  4.23007943e-02,  9.81388986e-03],\n",
+       "                        [ 3.03449854e-02,  6.18951395e-02, -3.08971498e-02, ...,\n",
+       "                         -3.36437561e-02,  4.31980332e-03, -1.20434752e-02],\n",
+       "                        ...,\n",
+       "                        [ 1.40916174e-02,  4.39837538e-02,  3.55901457e-02, ...,\n",
+       "                          1.86255127e-02, -2.55157333e-03,  3.30475681e-02],\n",
+       "                        [-6.14691805e-03, -1.21009874e-03,  6.18668739e-03, ...,\n",
+       "                          7.57104205e-03, -3.07258405e-02, -6.10211864e-05],\n",
+       "                        [-2.05689538e-02,  2.61113532e-02, -1.36594288e-02, ...,\n",
+       "                          3.22956629e-02,  9.42087919e-03, -2.71793958e-02]],\n",
+       "                \n",
+       "                       [[-3.18994038e-02,  2.98762377e-02, -4.58624493e-03, ...,\n",
+       "                         -3.14713195e-02, -3.61298025e-03, -1.81986094e-02],\n",
+       "                        [-3.42853963e-02, -5.06591192e-03, -3.48398313e-02, ...,\n",
+       "                         -9.28449351e-03, -1.66443270e-02,  8.47470853e-03],\n",
+       "                        [-1.73601918e-02,  3.66732851e-02,  4.99416888e-03, ...,\n",
+       "                         -3.08772968e-03, -5.62098771e-02, -3.27138081e-02],\n",
+       "                        ...,\n",
+       "                        [-1.00883364e-03,  4.41332869e-02,  2.31967717e-02, ...,\n",
+       "                          2.40737461e-02, -1.68242175e-02,  2.50099483e-03],\n",
+       "                        [ 8.56396370e-03,  2.12957878e-02,  1.40406489e-02, ...,\n",
+       "                         -2.74769403e-02,  4.22054939e-02,  2.11386364e-02],\n",
+       "                        [ 4.71551064e-03,  2.22238470e-02, -3.67458686e-02, ...,\n",
+       "                          5.65739311e-02, -3.86471301e-03,  3.21120396e-02]],\n",
+       "                \n",
+       "                       [[-6.54545240e-03,  6.59759808e-03,  3.10065020e-02, ...,\n",
+       "                         -9.30190831e-03,  8.43427628e-02, -2.98959631e-02],\n",
+       "                        [-8.13470513e-04,  1.32250199e-02,  3.23896222e-02, ...,\n",
+       "                          2.87297219e-02,  4.73870635e-02, -5.47314212e-02],\n",
+       "                        [ 8.83145910e-03,  3.59255895e-02,  3.82480241e-04, ...,\n",
+       "                         -2.42862813e-02,  1.51623031e-02,  4.65482958e-02],\n",
+       "                        ...,\n",
+       "                        [ 2.51283403e-03, -3.90026607e-02, -3.47779356e-02, ...,\n",
+       "                          8.12389608e-03, -2.41510738e-02, -1.92626361e-02],\n",
+       "                        [-2.37690676e-02, -2.08333470e-02,  7.85396714e-03, ...,\n",
+       "                         -5.53582795e-03, -1.54151311e-02,  2.58248337e-02],\n",
+       "                        [ 3.37501578e-02, -1.90756079e-02,  6.25178516e-02, ...,\n",
+       "                         -1.13541130e-02,  2.42636055e-02, -3.49741355e-02]]],\n",
+       "                      dtype=float32)>\n",
+       "                (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-0.01318777, -0.02295675, -0.00447986, ...,  0.02340226,\n",
+       "                          0.02396798,  0.02395212],\n",
+       "                        [ 0.02522937,  0.01013704,  0.0086226 , ..., -0.00869954,\n",
+       "                          0.00192121,  0.00910798],\n",
+       "                        [ 0.01310639,  0.05106861, -0.01553375, ...,  0.00325352,\n",
+       "                          0.01052794,  0.01080661],\n",
+       "                        ...,\n",
+       "                        [ 0.03860697,  0.00321612,  0.01908875, ..., -0.01612688,\n",
+       "                         -0.03148167,  0.00176519],\n",
+       "                        [-0.01119953,  0.01437492,  0.02190567, ..., -0.0132356 ,\n",
+       "                         -0.01323991, -0.00115896],\n",
+       "                        [-0.0071844 ,  0.05996596,  0.01216447, ...,  0.02777538,\n",
+       "                          0.02075953, -0.00351544]],\n",
+       "                \n",
+       "                       [[ 0.02537636,  0.02856876, -0.02342264, ..., -0.02573042,\n",
+       "                          0.01136574, -0.01453617],\n",
+       "                        [ 0.04506863, -0.01258433,  0.03250534, ...,  0.01795811,\n",
+       "                          0.01470979,  0.01413825],\n",
+       "                        [ 0.03603299,  0.03263394,  0.00097002, ...,  0.0020968 ,\n",
+       "                          0.02974231,  0.02116193],\n",
+       "                        ...,\n",
+       "                        [-0.02552052,  0.05043046, -0.05692687, ..., -0.05374872,\n",
+       "                          0.04860976, -0.01264693],\n",
+       "                        [ 0.01037689, -0.0361127 , -0.01846472, ..., -0.00514735,\n",
+       "                          0.02535365, -0.01905973],\n",
+       "                        [ 0.00298942, -0.00408463, -0.02461437, ...,  0.0171862 ,\n",
+       "                          0.06361403,  0.02029764]],\n",
+       "                \n",
+       "                       [[-0.02168439, -0.01428589,  0.0188216 , ...,  0.04270842,\n",
+       "                         -0.01303979,  0.02056494],\n",
+       "                        [ 0.00568785, -0.0082274 , -0.0066022 , ...,  0.01012719,\n",
+       "                          0.05014695, -0.02596882],\n",
+       "                        [-0.04066228, -0.00621352, -0.00332704, ..., -0.0157308 ,\n",
+       "                          0.0195204 , -0.03985695],\n",
+       "                        ...,\n",
+       "                        [ 0.02584991,  0.03518784,  0.02574175, ..., -0.01257392,\n",
+       "                         -0.04206349, -0.0048046 ],\n",
+       "                        [-0.01413388, -0.01485168,  0.02406313, ..., -0.01778922,\n",
+       "                          0.00461665,  0.00139692],\n",
+       "                        [-0.02803544, -0.00650722, -0.0021756 , ..., -0.00980162,\n",
+       "                          0.00206922,  0.00554118]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.05177293,  0.02650772, -0.00978526, ...,  0.0043966 ,\n",
+       "                          0.03506858,  0.01135329],\n",
+       "                        [ 0.0375731 , -0.01540854, -0.01112673, ...,  0.04526203,\n",
+       "                          0.0233603 ,  0.03603827],\n",
+       "                        [-0.02273492,  0.03706569,  0.02575646, ..., -0.03564757,\n",
+       "                         -0.04142889,  0.02389054],\n",
+       "                        ...,\n",
+       "                        [ 0.01941642, -0.0085012 , -0.0557094 , ..., -0.01670198,\n",
+       "                         -0.02052434, -0.00168407],\n",
+       "                        [-0.0351553 ,  0.01551712,  0.00915734, ...,  0.03178797,\n",
+       "                         -0.05964255, -0.00596981],\n",
+       "                        [-0.01134368,  0.00964628,  0.02129234, ..., -0.0319788 ,\n",
+       "                         -0.00213671, -0.03973258]],\n",
+       "                \n",
+       "                       [[-0.02210673,  0.00523586, -0.02834713, ..., -0.0636308 ,\n",
+       "                          0.01308194, -0.04781625],\n",
+       "                        [ 0.04696853,  0.006044  ,  0.04008915, ..., -0.01530645,\n",
+       "                         -0.00495765,  0.02629478],\n",
+       "                        [-0.00497302,  0.04778329,  0.03536648, ...,  0.03902463,\n",
+       "                         -0.02539242,  0.00059366],\n",
+       "                        ...,\n",
+       "                        [-0.03652025, -0.01612661, -0.00615743, ...,  0.02422498,\n",
+       "                         -0.0361707 ,  0.00268991],\n",
+       "                        [-0.04141604,  0.02176796, -0.0156197 , ..., -0.02489092,\n",
+       "                         -0.01849893, -0.01103601],\n",
+       "                        [ 0.00841193, -0.00149072,  0.02113938, ...,  0.02991742,\n",
+       "                          0.01191125, -0.06035671]],\n",
+       "                \n",
+       "                       [[-0.06655436,  0.02989374, -0.00491186, ..., -0.02252275,\n",
+       "                         -0.00717574, -0.01237144],\n",
+       "                        [ 0.02521724,  0.0361912 ,  0.00203329, ..., -0.02949763,\n",
+       "                          0.04080155,  0.00144356],\n",
+       "                        [ 0.02363535, -0.01556045,  0.02989104, ...,  0.01995425,\n",
+       "                         -0.04610887,  0.01528407],\n",
+       "                        ...,\n",
+       "                        [-0.01950484,  0.00086064,  0.0269462 , ...,  0.00156349,\n",
+       "                         -0.02226892,  0.00954708],\n",
+       "                        [-0.01465053,  0.01105888,  0.01764409, ..., -0.00928741,\n",
+       "                          0.04994562,  0.01589353],\n",
+       "                        [-0.03912487, -0.03753956,  0.01271566, ..., -0.02681927,\n",
+       "                          0.02774329,  0.00877878]]], dtype=float32)>\n",
+       "                (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[ 0.15422297,  0.15251152,  0.15151495, ..., -0.14064746,\n",
+       "                          0.15980962,  0.17023641],\n",
+       "                        [ 0.12403049, -0.11331204,  0.12569176, ...,  0.03419707,\n",
+       "                          0.11924558, -0.12648791],\n",
+       "                        [ 0.18741001,  0.2065825 , -0.21270443, ..., -0.18990202,\n",
+       "                         -0.19090095,  0.21400924],\n",
+       "                        ...,\n",
+       "                        [-0.09375948,  0.1497509 , -0.15540144, ..., -0.14721322,\n",
+       "                         -0.1315167 ,  0.18122064],\n",
+       "                        [-0.0587317 , -0.04491074,  0.06508895, ...,  0.05110288,\n",
+       "                         -0.07071096,  0.06905462],\n",
+       "                        [-0.10754132,  0.09326541, -0.11327109, ...,  0.13738528,\n",
+       "                          0.11489961,  0.08941042]],\n",
+       "                \n",
+       "                       [[ 0.12603816,  0.12799536,  0.114959  , ..., -0.12556967,\n",
+       "                          0.13754195,  0.12753312],\n",
+       "                        [ 0.11207639, -0.08645801,  0.09082218, ...,  0.0140484 ,\n",
+       "                          0.09090979, -0.09082133],\n",
+       "                        [ 0.12011658,  0.13103087, -0.13148898, ..., -0.13706776,\n",
+       "                         -0.14105241,  0.14464939],\n",
+       "                        ...,\n",
+       "                        [-0.08723357,  0.13415268, -0.13347897, ..., -0.12054894,\n",
+       "                         -0.09278843,  0.11890148],\n",
+       "                        [-0.05226003, -0.05589713,  0.04540312, ...,  0.0524542 ,\n",
+       "                         -0.05015353,  0.05337596],\n",
+       "                        [-0.09745742,  0.05376444, -0.10187627, ...,  0.10980828,\n",
+       "                          0.09781883,  0.05953084]],\n",
+       "                \n",
+       "                       [[ 0.11002494,  0.11171411,  0.12875985, ..., -0.09876626,\n",
+       "                          0.09285793,  0.09519387],\n",
+       "                        [ 0.06178673, -0.06321578,  0.06327706, ...,  0.0183921 ,\n",
+       "                          0.070053  , -0.06644866],\n",
+       "                        [ 0.09401145,  0.12514193, -0.1072129 , ..., -0.11506124,\n",
+       "                         -0.10873202,  0.09183257],\n",
+       "                        ...,\n",
+       "                        [-0.05113322,  0.09918363, -0.06977255, ..., -0.06374843,\n",
+       "                         -0.06453439,  0.06466979],\n",
+       "                        [-0.05722687, -0.04498487,  0.05236579, ...,  0.04266383,\n",
+       "                         -0.03902495,  0.06698402],\n",
+       "                        [-0.08601442,  0.06496987, -0.08741223, ...,  0.08892538,\n",
+       "                          0.0762236 ,  0.05185533]],\n",
+       "                \n",
+       "                       ...,\n",
+       "                \n",
+       "                       [[ 0.03258494,  0.02736137,  0.03159478, ..., -0.0050315 ,\n",
+       "                          0.02083286,  0.01262121],\n",
+       "                        [ 0.00174807,  0.00937498,  0.00678354, ..., -0.02117664,\n",
+       "                          0.01459187,  0.01828629],\n",
+       "                        [ 0.02465683, -0.00056386, -0.00459205, ..., -0.01084275,\n",
+       "                         -0.01416829,  0.00643451],\n",
+       "                        ...,\n",
+       "                        [ 0.01033148,  0.01858198, -0.01299103, ..., -0.00311526,\n",
+       "                         -0.00346096,  0.01781024],\n",
+       "                        [ 0.01784543,  0.03135689, -0.02553988, ..., -0.01419736,\n",
+       "                          0.00564152, -0.04284179],\n",
+       "                        [-0.02111671,  0.00376334, -0.00511846, ...,  0.00299228,\n",
+       "                          0.01733587,  0.01314108]],\n",
+       "                \n",
+       "                       [[ 0.00155817,  0.0124634 , -0.00531541, ..., -0.02395814,\n",
+       "                          0.01838842,  0.01430834],\n",
+       "                        [-0.01416866,  0.01781069, -0.00140325, ..., -0.03955453,\n",
+       "                          0.00113838,  0.01469225],\n",
+       "                        [ 0.00463771,  0.01510996,  0.00966887, ..., -0.00089965,\n",
+       "                         -0.01006315, -0.01742918],\n",
+       "                        ...,\n",
+       "                        [ 0.02526212,  0.00189975, -0.00690951, ...,  0.03322651,\n",
+       "                          0.00972647, -0.00453685],\n",
+       "                        [-0.03453545, -0.00827258,  0.002002  , ..., -0.00169753,\n",
+       "                          0.00235903,  0.00800518],\n",
+       "                        [-0.00833696,  0.01879054, -0.00846341, ...,  0.0064977 ,\n",
+       "                         -0.01062366, -0.00981449]],\n",
+       "                \n",
+       "                       [[-0.00052047,  0.01607908,  0.0159875 , ..., -0.00116392,\n",
+       "                          0.03057439,  0.00448367],\n",
+       "                        [-0.00096017,  0.01755989,  0.00695677, ...,  0.01495614,\n",
+       "                          0.01156417, -0.00707076],\n",
+       "                        [ 0.0186196 ,  0.00072577, -0.00454208, ..., -0.02735286,\n",
+       "                         -0.01870047,  0.02145687],\n",
+       "                        ...,\n",
+       "                        [-0.02501232,  0.0173656 , -0.03569832, ..., -0.03760741,\n",
+       "                         -0.03900147,  0.02033172],\n",
+       "                        [ 0.02029336,  0.01859468, -0.00411095, ..., -0.02711406,\n",
+       "                          0.02178913, -0.0037175 ],\n",
+       "                        [-0.0084949 , -0.00486461,  0.00732055, ...,  0.00235856,\n",
+       "                          0.01311421,  0.00130192]]], dtype=float32)>\n",
+       "                (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[-0.26868203, -0.27535695, -0.2693576 ,  0.27960885,  0.27287057,\n",
+       "                        -0.2753529 ,  0.27302045,  0.27561706,  0.25255072,  0.26636192,\n",
+       "                        -0.28757757, -0.27930236],\n",
+       "                       [-0.17975715,  0.15488821, -0.20194016, -0.17133014,  0.18513367,\n",
+       "                        -0.17031926, -0.13915437, -0.174314  , -0.1761386 , -0.07194202,\n",
+       "                        -0.18746632,  0.19164573],\n",
+       "                       [-0.3003058 , -0.30145678,  0.29975912, -0.30536792,  0.28004438,\n",
+       "                        -0.30651012,  0.2930349 , -0.27700898,  0.31011826,  0.29096514,\n",
+       "                         0.2603118 , -0.2955512 ],\n",
+       "                       [-0.24198084, -0.24300672, -0.24064417,  0.22756597, -0.2342006 ,\n",
+       "                         0.23656972, -0.2141901 ,  0.2417877 , -0.22542073, -0.2244719 ,\n",
+       "                        -0.24350967,  0.22337465],\n",
+       "                       [-0.29359788, -0.31946722, -0.33398148, -0.28803867,  0.3236134 ,\n",
+       "                        -0.2811088 , -0.28998134,  0.3042817 , -0.35590464, -0.30023083,\n",
+       "                        -0.29228398,  0.30816096],\n",
+       "                       [ 0.2354194 , -0.17245759, -0.2630802 , -0.19778982,  0.25238597,\n",
+       "                        -0.2535281 , -0.21062599,  0.22958456,  0.23370266, -0.25747344,\n",
+       "                         0.21018639, -0.20019868],\n",
+       "                       [-0.27674368, -0.2830251 , -0.2683709 , -0.28431627, -0.2847683 ,\n",
+       "                        -0.27203888,  0.29270157, -0.27411065,  0.3012199 ,  0.29456046,\n",
+       "                        -0.29395536, -0.2936156 ],\n",
+       "                       [-0.28742933,  0.30742434,  0.32838947,  0.31597203,  0.32925567,\n",
+       "                        -0.29919747, -0.30918163, -0.34416848, -0.3180004 , -0.32539096,\n",
+       "                        -0.30107445,  0.32607213],\n",
+       "                       [ 0.23184535,  0.22952211,  0.23920947,  0.22898799, -0.24847259,\n",
+       "                         0.22576277, -0.22404635,  0.22275062, -0.25400835, -0.20933175,\n",
+       "                        -0.23276992,  0.24126779],\n",
+       "                       [-0.18964213,  0.17429198, -0.18237531, -0.19432713,  0.18581223,\n",
+       "                        -0.19006582, -0.18830542,  0.17501049, -0.18752085,  0.18117443,\n",
+       "                        -0.18904155, -0.17408559],\n",
+       "                       [-0.34026957, -0.31199163,  0.3708957 , -0.31058815,  0.34430262,\n",
+       "                         0.32358223, -0.25290844,  0.31337228,  0.30053562,  0.335105  ,\n",
+       "                         0.33377516, -0.33765417],\n",
+       "                       [-0.21473545, -0.22248077, -0.22520685, -0.23809859,  0.24367464,\n",
+       "                         0.2134066 ,  0.25153336,  0.20766017, -0.00349386, -0.22780456,\n",
+       "                         0.2263006 , -0.22154689],\n",
+       "                       [-0.15095639, -0.18229209, -0.1734314 ,  0.14655188,  0.19161867,\n",
+       "                         0.07208873,  0.17548715,  0.19643627,  0.18742768, -0.18380925,\n",
+       "                        -0.19883142, -0.1959907 ],\n",
+       "                       [ 0.2268816 , -0.2609067 ,  0.24444549, -0.25492504,  0.24929528,\n",
+       "                         0.27251542, -0.27039358,  0.28755218,  0.2603899 ,  0.2719274 ,\n",
+       "                         0.26308933, -0.2474161 ],\n",
+       "                       [ 0.18814561,  0.16956286, -0.1561942 , -0.16392718,  0.17291549,\n",
+       "                         0.18032758,  0.18189184, -0.1980179 ,  0.18668872, -0.17640045,\n",
+       "                         0.17143048, -0.17791554],\n",
+       "                       [ 0.17702802, -0.1416968 ,  0.19410823, -0.1850939 , -0.20523228,\n",
+       "                        -0.1414121 , -0.17293154,  0.13094904, -0.20175035, -0.19630112,\n",
+       "                        -0.1801811 , -0.12336571]], dtype=float32)>\n",
+       "                (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "                (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "                array([[ 0.03094118,  0.09227013,  0.11201435, -0.08281983, -0.1155338 ,\n",
+       "                         0.09632084, -0.12966166, -0.08168372, -0.03784281, -0.11728286,\n",
+       "                         0.06686564,  0.10560343],\n",
+       "                       [-0.00972843,  0.00301247,  0.0213855 , -0.01911797,  0.00469647,\n",
+       "                        -0.02685864, -0.00583532, -0.01292591, -0.00499333, -0.01913606,\n",
+       "                         0.00341732,  0.02690028],\n",
+       "                       [ 0.03619004,  0.11354181, -0.17149776,  0.15797007, -0.15656814,\n",
+       "                         0.13987173, -0.10812069,  0.10685514, -0.12313732, -0.1284994 ,\n",
+       "                        -0.04995194,  0.11081317],\n",
+       "                       [ 0.03093367,  0.00487875,  0.06925732, -0.02231372,  0.01200025,\n",
+       "                         0.02084959,  0.01579359, -0.02532145,  0.02308956,  0.04844378,\n",
+       "                         0.00687829, -0.0300226 ],\n",
+       "                       [ 0.12325569,  0.19701692,  0.13378485,  0.01059841, -0.15528047,\n",
+       "                         0.05501186,  0.09498411, -0.11409605,  0.04993166,  0.12784524,\n",
+       "                         0.1036239 , -0.14872131],\n",
+       "                       [-0.06597345, -0.01467367,  0.03897054, -0.00212184, -0.08119051,\n",
+       "                         0.04852175, -0.00970348, -0.05740241, -0.07879417,  0.02758966,\n",
+       "                        -0.00241489, -0.00510158],\n",
+       "                       [ 0.09521554,  0.10691068,  0.11378186,  0.11781257,  0.11570975,\n",
+       "                         0.05820245, -0.09446467,  0.15486579, -0.06984306, -0.1343593 ,\n",
+       "                         0.06469096,  0.1278978 ],\n",
+       "                       [ 0.06212573, -0.17038704, -0.04677145, -0.07650258, -0.10857066,\n",
+       "                         0.08708575,  0.11975162,  0.07334787,  0.07723391,  0.08609731,\n",
+       "                         0.06248412, -0.10044962],\n",
+       "                       [-0.03502145, -0.04015782, -0.04989583, -0.02624421,  0.03372623,\n",
+       "                        -0.03072098,  0.01232656, -0.04399421,  0.02231663,  0.01969207,\n",
+       "                         0.02983998,  0.00214368],\n",
+       "                       [ 0.00347692,  0.01442801, -0.0304993 , -0.03323466, -0.0023081 ,\n",
+       "                         0.00499137,  0.01037823,  0.0102771 , -0.04711171,  0.01533431,\n",
+       "                         0.00357566, -0.00581984],\n",
+       "                       [ 0.12339349,  0.00848057, -0.14387739,  0.14553407, -0.13200925,\n",
+       "                        -0.08951408, -0.03027294, -0.04229014, -0.02739212, -0.12291225,\n",
+       "                        -0.0491762 ,  0.07527936],\n",
+       "                       [ 0.01299402,  0.02844498,  0.03334109,  0.07558666,  0.00912123,\n",
+       "                        -0.00561106,  0.00316214,  0.01945617, -0.06495948,  0.0313393 ,\n",
+       "                        -0.03638548,  0.05631591],\n",
+       "                       [-0.03493267,  0.0009238 , -0.03275893, -0.07044513,  0.02833049,\n",
+       "                        -0.05842603,  0.03714465, -0.05074135,  0.03266738, -0.04811786,\n",
+       "                         0.02824339,  0.04813497],\n",
+       "                       [-0.0230894 ,  0.06331895, -0.02569953,  0.05118599, -0.0753116 ,\n",
+       "                        -0.08294188,  0.01028657, -0.05590601, -0.07358146, -0.01478267,\n",
+       "                        -0.01705774,  0.05063409],\n",
+       "                       [ 0.01280639,  0.03038446,  0.00986827,  0.03244009, -0.00116751,\n",
+       "                         0.00987709,  0.0066936 , -0.01129914,  0.02202172,  0.0140991 ,\n",
+       "                        -0.0241296 , -0.02932922],\n",
+       "                       [ 0.03113999, -0.0431393 , -0.01171712, -0.02561518, -0.01583358,\n",
+       "                         0.05254831, -0.02684362,  0.04726546,  0.00764423, -0.02696961,\n",
+       "                        -0.04231891, -0.03636917]], dtype=float32)>\n",
+       "                (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "                array([[[-5.27779851e-03, -8.88226088e-03, -2.81230034e-03,\n",
+       "                         -9.52023640e-03,  1.47909373e-02, -5.27651515e-03,\n",
+       "                          7.12421082e-04, -4.35501774e-04,  1.20813437e-02,\n",
+       "                          1.61098633e-02, -5.68047771e-03,  6.59660343e-03],\n",
+       "                        [ 8.12851795e-05,  1.06413811e-02,  1.21246511e-02,\n",
+       "                          8.09746701e-03, -1.66827242e-03,  5.45212487e-03,\n",
+       "                          2.51806108e-03, -7.02599110e-03, -5.89881674e-04,\n",
+       "                          7.86851277e-04,  8.42893124e-03, -5.61370468e-03],\n",
+       "                        [ 1.97568326e-03,  5.44500025e-03, -1.42024169e-02,\n",
+       "                         -8.83423816e-03, -1.29927546e-02,  1.79970870e-03,\n",
+       "                          7.78046018e-03, -4.26901923e-03,  1.98270730e-03,\n",
+       "                          4.82431892e-03,  3.14646889e-03,  1.76119134e-02],\n",
+       "                        [ 2.22888426e-03,  1.76985911e-03,  2.47098110e-03,\n",
+       "                         -2.46098149e-03, -7.75786582e-03, -9.53307562e-03,\n",
+       "                         -1.71756893e-02, -1.01085817e-02, -1.79497171e-02,\n",
+       "                          8.97192210e-03, -5.22097060e-03, -5.67968423e-03],\n",
+       "                        [ 4.55937535e-03,  5.47372131e-03,  2.80431146e-03,\n",
+       "                         -2.00350024e-03, -1.60003966e-03,  5.29667968e-03,\n",
+       "                         -4.33545560e-03,  5.67700062e-03,  1.46172643e-02,\n",
+       "                          8.63140821e-03,  6.99569564e-03,  9.81627963e-03],\n",
+       "                        [-1.26747666e-02,  8.24042596e-03, -4.08668164e-03,\n",
+       "                         -2.08276766e-03, -1.91742834e-02, -4.82950546e-03,\n",
+       "                          1.76985364e-03,  1.45667931e-02,  4.86878864e-03,\n",
+       "                          2.16771313e-03,  1.14471335e-02, -4.81423782e-03],\n",
+       "                        [ 1.19527150e-02,  1.98420696e-02, -9.66270454e-03,\n",
+       "                          1.13149686e-02,  1.12002278e-02, -5.22031775e-03,\n",
+       "                         -8.76240339e-03, -2.35813670e-03, -9.54557862e-03,\n",
+       "                          3.40229901e-03, -4.78588976e-04,  1.34701496e-02],\n",
+       "                        [ 8.69849138e-03, -2.89159734e-03, -1.06805945e-02,\n",
+       "                          1.16119636e-02,  5.37191145e-03, -5.13361010e-04,\n",
+       "                         -8.46221577e-03,  5.01126098e-03, -2.37584673e-03,\n",
+       "                          4.26042639e-03, -1.27333589e-03, -1.69654787e-02],\n",
+       "                        [-7.09492620e-03, -2.11342960e-03, -1.01511432e-02,\n",
+       "                          1.17846369e-03,  9.98882391e-03, -9.83751100e-03,\n",
+       "                         -1.30945332e-02, -5.21418918e-03,  7.06450688e-03,\n",
+       "                          2.37721877e-04,  4.22352878e-03,  1.44046254e-03],\n",
+       "                        [-8.36623274e-03,  6.10570842e-03, -1.59419682e-02,\n",
+       "                          6.57670712e-03, -1.63553599e-02, -2.56635365e-03,\n",
+       "                         -2.83746095e-03,  5.48101217e-03, -1.10250590e-02,\n",
+       "                         -2.07894505e-03,  8.96814838e-03, -2.38579977e-03],\n",
+       "                        [ 1.92926470e-02,  5.27919503e-04,  1.26005081e-03,\n",
+       "                          1.14092669e-02, -6.77683810e-03, -9.93159506e-03,\n",
+       "                          6.33316627e-03,  1.26732690e-02, -1.39365206e-02,\n",
+       "                         -1.03181750e-02,  9.53592185e-04,  5.34668751e-03],\n",
+       "                        [ 5.63685270e-03,  1.29154501e-02,  6.42203633e-03,\n",
+       "                          2.95452494e-03,  9.61340556e-04,  1.03710396e-02,\n",
+       "                          1.88411921e-02,  9.56728496e-03, -2.44812435e-03,\n",
+       "                          1.41650520e-03, -3.90278571e-03,  1.16586024e-02],\n",
+       "                        [-3.03845573e-03,  1.16512487e-02,  1.38139790e-02,\n",
+       "                          6.47752266e-03, -5.40793641e-03, -1.19044734e-02,\n",
+       "                         -4.70434874e-03, -6.79142633e-03, -3.91318183e-03,\n",
+       "                         -8.58331285e-03,  1.55337723e-02, -9.22051352e-03],\n",
+       "                        [ 1.43822525e-02, -9.65516735e-03,  1.16251959e-02,\n",
+       "                          3.56233446e-03,  5.01413178e-03, -1.28455460e-02,\n",
+       "                          3.44698690e-03,  5.95927332e-03,  5.65657916e-04,\n",
+       "                         -1.57259824e-03,  2.90443003e-03,  6.97103469e-03],\n",
+       "                        [ 2.19722962e-04,  8.19719862e-03,  1.07631981e-02,\n",
+       "                         -1.24994228e-02, -1.02878679e-02,  8.78847297e-03,\n",
+       "                         -9.00726300e-03,  5.99039858e-03, -4.57549794e-03,\n",
+       "                         -3.82497930e-03, -8.10217857e-03,  7.49109359e-03],\n",
+       "                        [ 8.71846266e-03,  5.56638092e-03,  1.21459197e-02,\n",
+       "                         -5.88803319e-03,  1.12210959e-03, -5.64932078e-03,\n",
+       "                         -9.36472695e-03,  6.35942258e-03, -7.20582251e-03,\n",
+       "                          9.68251377e-03,  1.35562858e-02, -2.26370129e-03]],\n",
+       "                \n",
+       "                       [[-3.01201153e-03,  1.70398690e-03, -9.29654110e-03,\n",
+       "                          5.31336060e-03, -5.17250365e-03,  8.25267925e-04,\n",
+       "                          3.88166425e-03,  8.23030062e-03, -2.94712884e-03,\n",
+       "                          7.33170612e-03,  1.31624732e-02, -3.62283341e-03],\n",
+       "                        [ 1.46265989e-02,  7.61225261e-03,  1.41994213e-04,\n",
+       "                         -2.94563826e-03, -5.41416928e-03, -1.46033627e-03,\n",
+       "                         -8.13731458e-03,  1.42887337e-02, -1.95643865e-03,\n",
+       "                          2.03239126e-03,  1.96603732e-03, -4.00112243e-03],\n",
+       "                        [ 3.50447209e-03, -5.01147006e-03,  4.89398139e-03,\n",
+       "                          8.28224514e-03, -2.48171762e-03,  2.46420549e-03,\n",
+       "                         -1.76831894e-03,  9.03744064e-03,  8.11696111e-04,\n",
+       "                          1.04465755e-02, -9.57741402e-03,  5.22807427e-03],\n",
+       "                        [ 1.81312319e-02, -4.55953617e-04, -7.14232726e-03,\n",
+       "                         -2.30852817e-03, -8.78485572e-03,  1.75538776e-03,\n",
+       "                         -3.34007433e-03,  9.97890625e-03,  4.45234217e-03,\n",
+       "                          1.23756528e-02, -9.38791409e-03, -1.07417803e-03],\n",
+       "                        [ 4.70838370e-03, -7.59124989e-03,  1.18844379e-02,\n",
+       "                         -1.86773483e-02, -7.92077556e-03, -6.16677618e-03,\n",
+       "                         -3.28160217e-03,  3.82375624e-03,  1.12824058e-02,\n",
+       "                         -1.15379859e-02,  1.82860661e-02, -1.21967122e-03],\n",
+       "                        [ 1.13177570e-02, -4.38998686e-03,  1.43300099e-02,\n",
+       "                         -1.19108809e-02,  1.14921958e-03,  1.52586366e-03,\n",
+       "                         -4.80240735e-04,  1.56034110e-02, -2.46891589e-03,\n",
+       "                          4.48609563e-03,  6.74360152e-03,  2.37283413e-03],\n",
+       "                        [ 1.09547712e-02, -3.41630221e-04,  2.67111650e-03,\n",
+       "                          3.63814714e-03, -1.74294151e-02, -7.67725799e-03,\n",
+       "                         -8.49556644e-03, -5.96185913e-03, -6.28766883e-03,\n",
+       "                         -1.49066029e-02, -1.02604553e-02, -9.20697395e-03],\n",
+       "                        [-1.12318797e-02,  2.97943875e-03, -1.21366177e-02,\n",
+       "                         -3.75522487e-03, -6.15986576e-03,  3.84680135e-03,\n",
+       "                         -9.26485471e-03,  2.81514693e-03,  1.46201355e-02,\n",
+       "                         -2.88473908e-03,  1.03525519e-02,  1.86061300e-02],\n",
+       "                        [-9.53767449e-03,  9.74707492e-03,  3.40018771e-03,\n",
+       "                         -2.09565135e-03, -2.57639308e-03, -3.49352928e-03,\n",
+       "                          1.67317118e-03,  1.15692504e-02,  4.90729930e-03,\n",
+       "                          1.24288796e-04,  1.19305719e-02, -1.28981266e-02],\n",
+       "                        [ 1.02281254e-02,  4.78178402e-03, -4.35357308e-03,\n",
+       "                          3.73754930e-03,  8.29111412e-03,  5.05232904e-03,\n",
+       "                         -1.77625958e-02, -1.91882402e-02, -8.58434569e-03,\n",
+       "                          1.02265412e-03, -3.06064147e-03, -3.64471762e-03],\n",
+       "                        [-1.44330030e-02,  1.93670299e-02,  1.09457932e-02,\n",
+       "                         -5.87473903e-03, -9.07221809e-03,  1.16742980e-02,\n",
+       "                          2.36421984e-05, -8.71126482e-04, -9.67785250e-03,\n",
+       "                          3.82036879e-03,  9.15551838e-03, -2.89905164e-03],\n",
+       "                        [ 4.01087943e-03,  6.75610406e-03,  8.85603670e-03,\n",
+       "                         -3.47056519e-03,  8.73016892e-04, -1.01834640e-03,\n",
+       "                         -1.64966681e-03, -2.21235445e-03,  9.57684778e-03,\n",
+       "                          4.81542945e-03,  1.57893432e-04, -1.59290042e-02],\n",
+       "                        [-1.11627420e-02,  9.81606636e-03, -6.05386123e-03,\n",
+       "                         -3.32297711e-03, -7.22375279e-03,  2.24133884e-03,\n",
+       "                          2.15093256e-03, -1.19461836e-02,  1.10612076e-03,\n",
+       "                          1.65597424e-02,  1.16270292e-03, -2.23377813e-03],\n",
+       "                        [ 1.34263944e-03,  5.71138784e-03, -6.21036766e-03,\n",
+       "                         -1.15926396e-02, -9.60804336e-03,  2.78700469e-03,\n",
+       "                         -6.81011705e-03, -1.00470139e-02,  1.26223499e-02,\n",
+       "                         -1.38519770e-02,  8.48167855e-03, -8.67073797e-03],\n",
+       "                        [ 7.76617508e-03, -4.73470520e-03, -5.49206603e-03,\n",
+       "                         -1.75008969e-03,  2.21663760e-03, -6.05556136e-03,\n",
+       "                          1.34991286e-02, -1.12727834e-02,  1.85831555e-03,\n",
+       "                         -5.13528939e-03,  1.42547470e-02, -7.04276469e-03],\n",
+       "                        [ 2.68135243e-03, -6.54922193e-03,  8.23414978e-03,\n",
+       "                          2.85659893e-03,  8.38303566e-03,  9.66343097e-03,\n",
+       "                          1.36161223e-03,  1.24757364e-03, -1.30205378e-02,\n",
+       "                          3.25935357e-03,  1.72301754e-02, -6.05487078e-03]]],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (ff): TFXLNetFeedForward(\n",
+       "                (layer_norm): LayerNormalization(\n",
+       "                  (axis): List(\n",
+       "                    (0): 2\n",
+       "                  )\n",
+       "                  (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([1.2522751 , 1.0093765 , 1.1682793 , 1.2730445 , 1.1290082 ,\n",
+       "                         1.1066203 , 1.2573878 , 1.2429068 , 1.1264472 , 1.2486175 ,\n",
+       "                         1.1848505 , 1.2741587 , 1.206441  , 1.0918944 , 1.0869336 ,\n",
+       "                         1.1999458 , 1.0683286 , 1.1028944 , 1.0555205 , 1.252938  ,\n",
+       "                         1.0823282 , 1.2489052 , 1.264616  , 1.2999828 , 1.2788929 ,\n",
+       "                         1.1698768 , 0.9360449 , 1.2396882 , 1.212866  , 1.263233  ,\n",
+       "                         1.1779826 , 1.2009988 , 1.2418183 , 1.2686338 , 1.1805633 ,\n",
+       "                         1.1343807 , 1.2727007 , 1.1718581 , 1.2787241 , 1.2082775 ,\n",
+       "                         1.1255412 , 1.1395037 , 1.1745707 , 1.0784985 , 1.2188327 ,\n",
+       "                         1.1633599 , 1.2963617 , 1.0634298 , 1.2542322 , 1.2530534 ,\n",
+       "                         1.2687988 , 0.8772695 , 1.0806193 , 1.2497077 , 1.1243813 ,\n",
+       "                         1.0014821 , 1.099511  , 1.1929379 , 1.100037  , 1.0372964 ,\n",
+       "                         1.1875197 , 1.2419759 , 1.283821  , 1.2847592 , 1.1503284 ,\n",
+       "                         1.1659832 , 1.2350835 , 1.2548746 , 1.1188186 , 1.2092803 ,\n",
+       "                         1.211994  , 1.2788891 , 1.2673773 , 1.158101  , 1.0983268 ,\n",
+       "                         1.2055833 , 1.1978227 , 1.1251754 , 1.2141727 , 1.2425163 ,\n",
+       "                         1.2850866 , 1.2721363 , 1.2333146 , 1.2206935 , 1.2748688 ,\n",
+       "                         1.1705027 , 1.0520046 , 1.2779021 , 1.2621833 , 1.2819186 ,\n",
+       "                         1.0821573 , 1.2487339 , 1.2016653 , 1.0732634 , 1.047415  ,\n",
+       "                         1.1905521 , 1.1431751 , 1.123514  , 1.167525  , 1.1280419 ,\n",
+       "                         1.2490776 , 1.0800833 , 1.0971141 , 1.1880326 , 1.0583612 ,\n",
+       "                         1.2673814 , 1.1592313 , 1.1000642 , 1.0691762 , 1.1786101 ,\n",
+       "                         1.03656   , 1.3018342 , 1.1104187 , 1.1516141 , 1.2461619 ,\n",
+       "                         1.2952878 , 1.2018924 , 1.1943662 , 1.1685911 , 1.1472508 ,\n",
+       "                         1.1439903 , 1.165938  , 1.2121962 , 1.1980138 , 1.2737277 ,\n",
+       "                         1.2126373 , 1.3023908 , 1.0751258 , 1.1792599 , 1.2828441 ,\n",
+       "                         1.1272415 , 1.0575378 , 1.2931595 , 1.2220132 , 1.1648686 ,\n",
+       "                         1.2046567 , 1.1758484 , 1.0887432 , 1.2748208 , 1.2743984 ,\n",
+       "                         1.0936766 , 1.1675012 , 1.1073984 , 1.2471579 , 1.2580185 ,\n",
+       "                         1.2944169 , 1.0588381 , 1.239205  , 1.0478017 , 1.0710353 ,\n",
+       "                         1.2854698 , 1.1657965 , 1.0569364 , 1.1264596 , 1.2301056 ,\n",
+       "                         1.1430358 , 1.0730251 , 1.2023942 , 1.1937732 , 1.2309388 ,\n",
+       "                         1.2708906 , 1.126246  , 1.1178268 , 1.2910633 , 1.2957244 ,\n",
+       "                         0.89223814, 1.234347  , 1.2954712 , 1.0805429 , 1.1072289 ,\n",
+       "                         1.2282895 , 1.1035715 , 1.2435746 , 1.2350806 , 1.279401  ,\n",
+       "                         1.1488963 , 1.2315387 , 1.1120211 , 1.2320697 , 1.1059345 ,\n",
+       "                         1.2748728 , 1.2064512 , 1.1769738 , 1.0744382 , 1.1339085 ,\n",
+       "                         1.3024759 , 1.0569987 , 1.1273695 , 1.1070974 , 1.2043669 ,\n",
+       "                         1.2093413 , 1.1788723 ], dtype=float32)>\n",
+       "                  (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-2.98464089e-03, -1.50231654e-02,  2.09697019e-02, -1.23314664e-03,\n",
+       "                         -1.79774147e-02,  1.54648647e-02, -1.13313952e-02,  3.37430947e-02,\n",
+       "                         -1.76270995e-02,  1.56363547e-02, -1.68003254e-02, -2.02743132e-02,\n",
+       "                          2.23831926e-02,  1.05386216e-03,  2.83501968e-02, -3.07279024e-02,\n",
+       "                         -1.25424191e-02, -8.70161317e-03, -2.72763968e-02,  2.50578281e-02,\n",
+       "                         -3.35835037e-03, -6.12330018e-03, -5.59682120e-03, -6.94832532e-04,\n",
+       "                          7.69904582e-03, -1.18678005e-03, -3.49601321e-02, -9.72641818e-03,\n",
+       "                         -3.91906984e-02, -4.36295755e-02,  2.40605343e-02, -1.26803098e-02,\n",
+       "                          1.65936016e-02,  1.91623457e-02,  6.25976995e-02,  1.39758345e-02,\n",
+       "                          1.44732976e-02, -1.96330920e-02, -2.37285141e-02, -1.01893693e-02,\n",
+       "                          4.22124425e-03,  3.92983705e-02, -7.99220707e-03,  3.00118746e-03,\n",
+       "                          3.36812437e-02, -2.54718903e-02, -2.95100398e-02,  1.80750452e-02,\n",
+       "                         -1.00522372e-03, -4.38039601e-02, -9.71965864e-03, -6.45025522e-02,\n",
+       "                         -5.59889292e-03,  2.35542040e-02,  3.48944180e-02,  1.94434412e-02,\n",
+       "                         -2.65257247e-03,  1.47554267e-04,  1.92478672e-02, -1.64113492e-02,\n",
+       "                         -6.28845487e-03,  1.25184590e-02,  4.25684778e-03,  1.67209227e-02,\n",
+       "                          1.72825307e-02,  1.08774230e-02, -1.02349566e-02, -4.43569049e-02,\n",
+       "                          7.88553897e-03,  5.94177190e-03, -4.77964786e-05, -1.96775608e-03,\n",
+       "                          1.04662115e-02,  2.62461826e-02, -1.45518677e-02,  2.35954323e-03,\n",
+       "                         -5.59200021e-03, -3.64836911e-03,  3.70329954e-02,  5.26014389e-03,\n",
+       "                         -1.62950214e-02,  6.71906397e-04, -7.20348954e-03, -3.44505045e-03,\n",
+       "                         -4.67529781e-02, -4.02089814e-03, -2.22560782e-02, -3.31367482e-03,\n",
+       "                         -2.47765109e-02, -2.75341962e-02,  8.32898635e-03, -3.27639952e-02,\n",
+       "                         -4.90404200e-03, -1.50603792e-02,  3.19701433e-02,  4.32597250e-02,\n",
+       "                          5.01151616e-03,  2.81178905e-03, -2.32189838e-02, -1.96613707e-02,\n",
+       "                          4.05130386e-02,  8.65645998e-04, -2.15268787e-03,  1.02070961e-02,\n",
+       "                          2.35224515e-02, -2.00268682e-02,  7.35167265e-02,  1.41650038e-02,\n",
+       "                         -1.44532919e-02, -8.02343059e-03,  1.83129776e-02, -9.27788555e-04,\n",
+       "                          1.10090058e-02,  4.74795699e-03, -1.33473482e-02,  1.60589209e-03,\n",
+       "                          1.79640148e-02, -3.50943021e-02,  2.36071516e-02, -4.04885896e-02,\n",
+       "                          4.15267237e-03,  4.04605456e-02, -3.81647721e-02,  2.88253874e-02,\n",
+       "                          2.72405948e-02, -2.06570514e-02, -3.13308574e-02,  3.17084752e-02,\n",
+       "                          9.24810767e-03, -2.34516822e-02, -1.01891151e-02, -1.19521432e-02,\n",
+       "                          4.38026786e-02,  3.17258993e-03, -2.26926766e-02,  2.71393117e-02,\n",
+       "                         -3.68446931e-02,  1.49202673e-02, -3.11328359e-02, -2.83620413e-03,\n",
+       "                          5.08711534e-03, -4.33024056e-02, -1.89927369e-02, -1.01872627e-02,\n",
+       "                         -1.85664985e-02, -4.16085729e-03,  1.89902484e-02,  1.12784393e-02,\n",
+       "                          2.38752626e-02, -6.84569497e-03,  2.17821002e-02, -1.97977237e-02,\n",
+       "                         -1.66308414e-02, -3.07456274e-02, -3.78057733e-02, -3.30768041e-02,\n",
+       "                          3.19958180e-02, -2.58779544e-02,  3.01505718e-02, -1.23978639e-02,\n",
+       "                         -1.86105408e-02,  1.98843190e-03, -5.23419771e-03, -2.69749109e-02,\n",
+       "                          1.39689045e-02,  7.39523172e-02,  2.58618426e-02,  1.34255374e-02,\n",
+       "                          4.02543228e-03,  1.80811211e-02,  6.88319735e-04, -1.44856386e-02,\n",
+       "                         -1.87959094e-02, -1.02204261e-02, -2.11577900e-02,  2.42553800e-02,\n",
+       "                         -2.62665078e-02, -4.44081728e-04,  5.03046736e-02, -3.12130284e-02,\n",
+       "                         -3.50290053e-02, -3.22235823e-02,  1.90551504e-02,  4.61142883e-02,\n",
+       "                         -1.01779238e-03, -6.54420210e-03, -2.49097664e-02,  7.40637258e-03,\n",
+       "                          2.10344177e-02, -4.66982648e-02,  5.15882820e-02,  1.91493165e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_1): Dense(\n",
+       "                  768, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                  array([[-0.00731476, -0.00559723,  0.01555359, ...,  0.02702708,\n",
+       "                          -0.02925726,  0.0330934 ],\n",
+       "                         [ 0.00382878, -0.00857857, -0.00621445, ..., -0.03116777,\n",
+       "                          -0.02194773,  0.00094237],\n",
+       "                         [ 0.00849335, -0.00464835, -0.06374532, ..., -0.0259069 ,\n",
+       "                           0.0161467 , -0.03729364],\n",
+       "                         ...,\n",
+       "                         [ 0.00713318,  0.01849269, -0.01105219, ..., -0.02167626,\n",
+       "                          -0.01229631,  0.00088599],\n",
+       "                         [ 0.00013176,  0.01139327,  0.0476611 , ...,  0.01338592,\n",
+       "                           0.07754453,  0.05307612],\n",
+       "                         [ 0.02423082, -0.0159826 , -0.04952573, ...,  0.01666124,\n",
+       "                           0.02278122, -0.01013451]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                  array([-1.95844453e-02, -8.65549129e-03, -2.18259636e-02, -1.36310216e-02,\n",
+       "                         -1.93196833e-02, -9.62962210e-03, -1.83725618e-02, -5.56009170e-03,\n",
+       "                         -4.40984359e-03,  5.52236522e-03, -2.25103907e-02, -9.18406714e-03,\n",
+       "                         -3.52970622e-02, -1.04512926e-02, -3.21112722e-02,  1.59434713e-02,\n",
+       "                          1.79731555e-03, -7.85902236e-03, -2.92546619e-02, -1.98933110e-02,\n",
+       "                         -2.29590442e-02, -1.22489026e-02,  3.60434968e-03,  7.12449942e-03,\n",
+       "                         -3.12253740e-02, -1.14131710e-02, -6.21447153e-03, -1.52915362e-02,\n",
+       "                         -3.31035745e-03,  7.89731333e-04, -7.00089056e-03, -1.76686179e-02,\n",
+       "                         -2.90661827e-02, -2.20301133e-02, -4.60966863e-03, -2.97740158e-02,\n",
+       "                         -6.14430755e-03,  6.31537382e-03, -1.37350485e-02, -1.41976494e-02,\n",
+       "                         -2.04356965e-02, -2.56464281e-03, -3.42225693e-02, -5.60883759e-03,\n",
+       "                         -1.63527075e-02, -4.48552007e-03,  1.73742305e-02,  2.00275634e-03,\n",
+       "                         -8.75139143e-03, -4.51084562e-02, -4.63086031e-02, -1.92881525e-02,\n",
+       "                         -2.18698028e-02, -1.59494150e-02, -3.09668761e-02, -8.76304111e-04,\n",
+       "                         -1.74001250e-02, -4.11107317e-02,  1.11754416e-02, -1.77288183e-03,\n",
+       "                          1.37658382e-04, -3.70841920e-02, -1.52563611e-02, -6.32030098e-03,\n",
+       "                          1.86634064e-03, -1.54110473e-02,  6.92351721e-03, -2.04970017e-02,\n",
+       "                         -2.54487991e-02, -2.57756356e-02, -2.62815263e-02, -4.56504859e-02,\n",
+       "                          1.27559928e-02, -2.12265123e-02,  2.20705289e-02, -1.35426512e-02,\n",
+       "                          1.27521986e-02, -5.77939954e-03, -2.21070591e-02, -2.39898171e-02,\n",
+       "                         -4.66552265e-02, -4.68218559e-03, -2.94441953e-02, -2.85015106e-02,\n",
+       "                         -1.99070899e-03, -2.24121734e-02,  2.65262963e-04, -4.05716622e-04,\n",
+       "                         -1.18416417e-02, -4.56276089e-02, -1.00249611e-02, -2.25096680e-02,\n",
+       "                         -1.97661165e-02,  2.60626767e-02,  9.12914518e-04, -4.34975065e-02,\n",
+       "                         -2.43351050e-02, -2.52415165e-02, -1.68336742e-03, -3.83990258e-03,\n",
+       "                         -3.21206003e-02, -1.75539253e-03, -5.74760791e-03, -1.32581815e-02,\n",
+       "                         -1.14303064e-02, -9.56144091e-03, -3.09919217e-03,  1.45248398e-02,\n",
+       "                         -2.89597996e-02, -3.16334679e-03, -7.62297632e-03, -3.13032158e-02,\n",
+       "                         -9.86116193e-03, -8.94718897e-03, -2.10811645e-02, -2.30442844e-02,\n",
+       "                         -2.96968296e-02, -2.03740075e-02, -2.99714273e-03,  1.40837282e-02,\n",
+       "                         -7.52239348e-03, -9.83515941e-03, -1.95247680e-02, -3.18938721e-04,\n",
+       "                         -1.02474364e-02, -1.73518658e-02, -9.92205460e-03, -3.24068405e-02,\n",
+       "                         -1.67155545e-02, -1.11674285e-03, -5.44478605e-03, -2.58996198e-03,\n",
+       "                          3.79964826e-03, -2.50913482e-02, -1.45098930e-02, -6.08905044e-04,\n",
+       "                         -1.67759899e-02, -5.27007645e-03, -2.28520446e-02, -3.56323272e-02,\n",
+       "                         -2.78583020e-02, -1.34758893e-02, -3.02666277e-02,  5.92188118e-03,\n",
+       "                         -6.84797298e-03, -3.90171446e-03, -7.77713675e-03, -2.11589262e-02,\n",
+       "                          1.15987463e-02, -1.71765834e-02, -2.64393538e-02, -1.43159376e-02,\n",
+       "                         -5.10856174e-02, -9.35892202e-03, -1.20925158e-02, -2.55441926e-02,\n",
+       "                         -3.05666458e-02, -1.58648118e-02,  2.51809804e-04,  2.68528890e-03,\n",
+       "                          5.31575177e-03, -1.25083728e-02,  1.95785165e-02, -3.35548595e-02,\n",
+       "                         -2.30071484e-03, -7.61513133e-03,  2.28220434e-03, -1.32820485e-02,\n",
+       "                         -7.63081759e-03, -2.92753913e-02, -2.50888541e-02, -3.50784510e-02,\n",
+       "                         -2.57033855e-02,  4.95831668e-03, -1.38742791e-03,  1.31370546e-02,\n",
+       "                         -1.39689622e-02, -4.22309432e-03,  6.45820890e-03,  9.41634737e-03,\n",
+       "                         -1.96843199e-03, -1.86584722e-02, -1.09482966e-02, -1.01999249e-02,\n",
+       "                         -3.32051255e-02, -2.91097686e-02, -3.15269502e-03, -7.83520285e-03,\n",
+       "                          6.07596338e-03, -1.72054879e-02,  8.64808727e-03, -8.52772873e-03,\n",
+       "                          8.25701561e-03,  1.19442418e-02, -1.28312092e-02, -2.09524594e-02,\n",
+       "                          3.32198851e-03,  1.13781467e-02, -6.87208865e-03, -1.46617251e-03,\n",
+       "                          4.01694141e-03, -2.73761451e-02, -3.33210193e-02, -2.85687223e-02,\n",
+       "                         -1.53808054e-02, -2.30335258e-02, -3.43638062e-02, -4.63966839e-02,\n",
+       "                         -6.46878220e-03, -9.61133372e-03,  1.19184377e-02,  7.40477291e-04,\n",
+       "                          1.78783685e-02, -1.92430541e-02,  1.13883521e-03, -2.32018605e-02,\n",
+       "                         -1.42439594e-02, -2.12897211e-02, -1.34940271e-03, -9.22020245e-03,\n",
+       "                         -1.99375246e-02, -5.67923952e-03, -1.90065298e-02,  1.40939504e-02,\n",
+       "                         -2.25385018e-02, -1.80489309e-02, -4.51341942e-02,  4.81570465e-03,\n",
+       "                         -8.49147327e-03, -1.24779083e-02, -8.71823914e-03,  3.84293287e-03,\n",
+       "                         -9.64595191e-03,  4.06070799e-03, -1.71662867e-02,  8.08361359e-03,\n",
+       "                          4.40804521e-03,  3.59776284e-04, -5.90988342e-03,  3.04426067e-03,\n",
+       "                          5.96786430e-03,  1.60560627e-02, -3.93116521e-03, -2.79522557e-02,\n",
+       "                         -1.12993654e-03,  1.08668562e-02, -2.34042690e-03, -6.21559750e-03,\n",
+       "                         -4.45571216e-03, -9.82985925e-03, -9.75735299e-03, -1.84049146e-04,\n",
+       "                         -1.31330471e-02, -3.32680456e-02, -3.24590616e-02, -4.53572441e-03,\n",
+       "                         -4.74597607e-03, -2.42186561e-02, -9.95392073e-03, -2.64846124e-02,\n",
+       "                         -1.29699372e-02, -8.82939808e-03, -7.61334365e-03, -4.37332224e-03,\n",
+       "                         -4.84891981e-03, -2.47140750e-02, -9.76564921e-03, -1.71844754e-02,\n",
+       "                         -1.42972879e-02, -7.05601498e-02, -1.82255208e-02, -1.76547393e-02,\n",
+       "                         -2.88699996e-02, -2.51587853e-02, -5.03135212e-02, -2.16723774e-02,\n",
+       "                          3.29201878e-03, -1.39654111e-02, -4.10618857e-02, -1.55860493e-02,\n",
+       "                         -1.41667286e-02, -2.28298232e-02, -1.24321121e-03, -3.77828553e-02,\n",
+       "                         -4.00054269e-03, -9.93035268e-03, -2.89095137e-02, -6.19364670e-04,\n",
+       "                         -8.74714088e-03,  6.29378902e-03, -4.92501631e-03, -1.02337254e-02,\n",
+       "                         -3.39881144e-02, -9.59344767e-03,  2.02027299e-02, -3.52698043e-02,\n",
+       "                         -2.74944771e-02, -3.59510072e-02, -2.26303726e-03, -1.43029056e-02,\n",
+       "                         -1.29715437e-02, -8.12308956e-03,  1.62457244e-03,  3.21572809e-03,\n",
+       "                         -3.87752079e-03, -5.51236235e-02, -3.46730740e-05, -4.12351713e-02,\n",
+       "                         -1.47612831e-02, -1.24165532e-03, -9.91546735e-03, -3.65949795e-03,\n",
+       "                         -3.47949751e-03, -5.22602303e-03,  4.58968477e-03, -1.71663344e-03,\n",
+       "                         -1.45575954e-02, -8.76334962e-03,  6.46544434e-03,  9.01998859e-03,\n",
+       "                         -1.90767162e-02, -4.52305801e-04,  4.82608564e-03, -2.17572190e-02,\n",
+       "                         -2.26658508e-02, -3.69191691e-02, -1.36799123e-02, -1.03398168e-03,\n",
+       "                         -2.05054111e-03,  4.75895684e-03, -2.61215698e-02, -2.93900166e-02,\n",
+       "                         -1.68524461e-03, -5.52760288e-02,  4.33846656e-03, -3.15805897e-02,\n",
+       "                         -7.00849853e-03, -2.24584583e-02, -2.06082482e-02, -3.66691388e-02,\n",
+       "                         -4.40263771e-04, -1.99946407e-02, -2.51496676e-02, -7.82504212e-03,\n",
+       "                         -1.42441159e-02, -2.64672302e-02, -2.87744720e-02,  1.64955156e-03,\n",
+       "                         -3.01248636e-02, -1.64740607e-02, -1.62984226e-02, -2.10719258e-02,\n",
+       "                         -5.06412936e-03,  4.88817832e-03,  8.22153408e-03, -1.60204545e-02,\n",
+       "                          1.99927185e-02, -7.52092013e-03, -7.08112726e-03,  5.44202561e-03,\n",
+       "                         -1.41786495e-02, -1.19250556e-02, -1.44893001e-03,  2.39995029e-03,\n",
+       "                         -3.56406649e-03, -4.30744663e-02, -1.41634196e-02, -5.21397255e-02,\n",
+       "                          9.54880752e-03,  9.30607039e-03, -2.57963240e-02, -3.34309116e-02,\n",
+       "                         -1.39827076e-02, -3.60686071e-02, -1.42136365e-02, -8.58396932e-04,\n",
+       "                          2.00391700e-03, -2.73431186e-03, -6.61845356e-02, -1.31305335e-02,\n",
+       "                         -1.80768650e-02,  1.74880750e-03, -7.90730864e-03, -1.48344161e-02,\n",
+       "                         -2.08231173e-02, -9.09108203e-03, -1.70891769e-02, -4.69049588e-02,\n",
+       "                         -2.48399694e-02,  8.33071885e-04, -3.21469791e-02, -1.72363427e-02,\n",
+       "                         -3.02424617e-02, -6.71969168e-03, -3.47741949e-03,  7.35704461e-03,\n",
+       "                         -2.64123641e-02, -2.15444225e-03, -3.78520577e-04,  5.15253004e-03,\n",
+       "                         -5.63742453e-03, -1.09958490e-02, -2.77572637e-03,  5.70428139e-03,\n",
+       "                         -1.80389266e-02, -1.63417601e-03, -4.87279333e-03, -3.00320741e-02,\n",
+       "                         -4.01097490e-03,  1.28556753e-03,  3.73925245e-03, -2.40999996e-03,\n",
+       "                         -7.88006745e-03,  8.38188175e-03,  8.68380535e-03,  1.16670632e-03,\n",
+       "                          9.34353750e-03, -1.56317148e-02, -4.31581512e-02,  7.39409239e-04,\n",
+       "                         -1.12983510e-02, -2.41220146e-02, -1.41180642e-02, -6.60499930e-03,\n",
+       "                         -4.28165197e-02, -5.71281230e-03, -1.09349387e-02, -2.63239210e-03,\n",
+       "                         -4.80283499e-02, -2.84141172e-02, -5.64169139e-03, -7.94387888e-03,\n",
+       "                         -2.23233383e-02, -1.82960983e-02, -1.30282633e-03, -1.04888957e-02,\n",
+       "                         -3.02167088e-02, -6.29290659e-03, -4.82114628e-02, -3.22515122e-03,\n",
+       "                          7.33331218e-03,  9.07962676e-04, -9.51999985e-03, -6.66064536e-03,\n",
+       "                         -5.97348809e-02,  1.18374815e-02, -6.51209205e-02, -9.49933846e-03,\n",
+       "                         -5.09255426e-03, -1.59832719e-03, -2.32329424e-02,  8.66232347e-03,\n",
+       "                         -1.60102509e-02, -1.99118648e-02, -4.23244424e-02, -1.96607262e-02,\n",
+       "                         -4.89295041e-03, -3.10160760e-02, -2.57948111e-03,  1.46750594e-03,\n",
+       "                         -6.57568127e-03,  6.43703970e-04, -2.49447990e-02,  3.58949392e-03,\n",
+       "                          4.44795098e-03, -9.77641437e-03, -2.08274974e-03, -1.24405764e-04,\n",
+       "                          5.95462974e-04, -1.53845549e-02,  5.52301761e-03, -8.50411505e-03,\n",
+       "                         -3.42846066e-02, -7.10777938e-03, -3.12357210e-02,  4.27144440e-03,\n",
+       "                          3.05197551e-03, -2.08130665e-03, -1.88251026e-02, -2.55565699e-02,\n",
+       "                          6.63829735e-03, -1.57438703e-02,  8.91328615e-04, -4.25117016e-02,\n",
+       "                         -1.71183664e-02,  2.99484795e-03, -1.36743607e-02, -4.02842648e-02,\n",
+       "                          5.09863533e-03, -9.11824480e-02, -5.49048595e-02, -2.10822932e-03,\n",
+       "                         -1.06739160e-02, -8.31918791e-03,  1.30438653e-03, -4.87434305e-03,\n",
+       "                         -3.63245830e-02, -2.78281011e-02, -4.55521867e-02, -1.02171721e-02,\n",
+       "                         -5.75303752e-03, -5.24828993e-02,  4.32022708e-03, -6.54709432e-03,\n",
+       "                         -2.33584959e-02, -3.48939337e-02, -7.76915485e-03, -1.70537587e-02,\n",
+       "                         -7.09537463e-03, -2.94463374e-02, -1.72148533e-02, -2.75129508e-02,\n",
+       "                         -9.92418174e-03, -4.20823283e-02, -5.35115949e-04, -8.64472240e-03,\n",
+       "                         -1.03339497e-02,  8.30400363e-03, -5.02560586e-02, -4.49673412e-03,\n",
+       "                          1.16826333e-02,  6.03074534e-03, -2.10740622e-02, -3.57969111e-04,\n",
+       "                         -2.26442050e-03, -3.69632058e-02, -3.80805880e-03, -2.72384565e-03,\n",
+       "                         -4.61126193e-02, -1.18876994e-02, -5.34582324e-02, -2.87316609e-02,\n",
+       "                          3.55952932e-03, -1.65250469e-02, -3.89226130e-04, -4.53135855e-02,\n",
+       "                         -6.81232810e-02,  7.85995368e-03, -5.27369119e-02, -2.46313214e-02,\n",
+       "                         -1.38374474e-02, -4.60473709e-02, -1.61913000e-02, -2.28811782e-02,\n",
+       "                         -1.44989381e-03, -2.14263014e-02, -1.94337778e-02,  9.12142545e-03,\n",
+       "                          3.83314886e-03, -1.80786867e-02, -2.19889600e-02, -5.16478792e-02,\n",
+       "                          6.02354994e-03, -2.19489238e-03, -5.29424520e-03, -3.26552540e-02,\n",
+       "                          2.43347767e-03, -7.24237761e-04, -8.84142332e-03, -4.03352221e-03,\n",
+       "                         -1.16886729e-02,  4.68930881e-03, -7.22259469e-03,  1.23944611e-03,\n",
+       "                         -2.56220996e-02,  1.34780509e-02, -8.64358339e-03, -8.16160440e-03,\n",
+       "                         -4.98882588e-03,  9.65662021e-03, -2.68737953e-02, -2.60425098e-02,\n",
+       "                         -4.57399350e-04, -4.16626632e-02, -7.62977451e-03, -8.76080245e-03,\n",
+       "                         -2.78488602e-02,  9.84464679e-03,  1.59915872e-02, -1.19072513e-03,\n",
+       "                         -6.27124729e-03, -4.81498837e-02, -5.02719469e-02,  1.32357422e-02,\n",
+       "                         -1.59036852e-02, -1.48620699e-02, -2.75997724e-03, -1.50468238e-02,\n",
+       "                          1.27517467e-03, -3.25372294e-02, -3.67778167e-02, -2.34703533e-02,\n",
+       "                         -5.37173450e-02, -2.68561747e-02,  1.89162989e-03,  1.37316354e-03,\n",
+       "                         -5.83842816e-03, -1.23420609e-02, -2.72032358e-02, -7.56065827e-03,\n",
+       "                         -2.32472476e-02, -3.38321812e-02, -3.08886878e-02, -1.93791874e-02,\n",
+       "                         -3.79290641e-03, -3.19873244e-02, -2.72396225e-02,  2.30710757e-05,\n",
+       "                          2.83963210e-03, -2.40165298e-03,  5.99769992e-04, -6.07594289e-03,\n",
+       "                          3.56180884e-04, -1.26568293e-02, -3.26493755e-02, -2.29680166e-02,\n",
+       "                         -1.04542980e-02,  2.87670176e-03, -6.91271573e-03, -8.21887515e-03,\n",
+       "                         -8.12038220e-03,  4.77912789e-03, -3.76395807e-02, -3.34925354e-02,\n",
+       "                         -8.66606191e-04, -6.12113951e-03, -1.33696599e-02, -1.10623566e-02,\n",
+       "                         -7.43102422e-03, -1.73128415e-02, -2.33342331e-02, -8.00193474e-03,\n",
+       "                          1.08947763e-02,  1.58026591e-02, -5.78184798e-02, -1.50881810e-02,\n",
+       "                          7.65291695e-03, -1.97008159e-02, -2.75538564e-02, -6.19046739e-04,\n",
+       "                          1.03095146e-02, -9.23244283e-03, -1.66220032e-03, -1.08118318e-02,\n",
+       "                          1.54678084e-04, -3.01870927e-02,  1.21328533e-02,  1.23004033e-03,\n",
+       "                          5.92811080e-03, -1.74891129e-02, -7.97203276e-03, -3.60940173e-02,\n",
+       "                          1.91394368e-03,  3.88024375e-03,  4.38633189e-03, -3.56014445e-03,\n",
+       "                          2.77617783e-03,  1.29021546e-02, -8.97175167e-03,  4.41568252e-03,\n",
+       "                          3.88988736e-03, -1.73047297e-02, -1.00583248e-02, -1.68862753e-02,\n",
+       "                         -1.93748400e-02, -1.48645723e-02, -3.03139295e-02, -8.56790971e-03,\n",
+       "                          4.12521232e-03, -4.46134359e-02, -7.26060197e-03, -3.50069348e-03,\n",
+       "                         -1.19281905e-02, -4.15487774e-02, -2.92326454e-02, -3.62816104e-03,\n",
+       "                         -1.19600194e-02, -7.33099645e-03, -2.04111654e-02, -8.04576464e-03,\n",
+       "                         -2.37229131e-02, -8.75537284e-03,  1.32349450e-02,  1.51164429e-02,\n",
+       "                         -1.60937570e-02, -3.49037698e-03, -2.05647163e-02, -2.63897632e-03,\n",
+       "                         -1.45941060e-02, -2.63325628e-02, -1.41528817e-02, -2.86686718e-02,\n",
+       "                         -9.43535045e-02, -3.35978046e-02, -2.91406568e-02, -3.67362797e-02,\n",
+       "                         -3.62359881e-02,  1.02549302e-03,  1.69918574e-02, -5.69594232e-03,\n",
+       "                          7.00123608e-04,  3.14995268e-04, -1.63341183e-02, -2.89767552e-02,\n",
+       "                         -2.27220077e-02, -2.06695907e-02, -1.98527984e-02,  1.04915360e-02,\n",
+       "                         -2.67626513e-02, -1.36345634e-02, -3.16965915e-02, -8.29998776e-03,\n",
+       "                         -4.10684608e-02, -1.63521767e-02,  2.58752797e-03,  4.38870862e-03,\n",
+       "                         -1.61363035e-02, -2.45969519e-02, -1.71433333e-02,  8.06657877e-03,\n",
+       "                         -7.52152316e-03, -5.20398514e-03, -1.54290805e-02, -1.39743509e-02,\n",
+       "                         -4.71884683e-02, -2.41057146e-02, -3.73328105e-03, -1.17457667e-02,\n",
+       "                         -2.52842568e-02, -1.89893022e-02, -1.92469582e-02, -2.89458204e-02,\n",
+       "                         -7.09375087e-03, -2.78910063e-02, -1.45923123e-02,  8.32242332e-03,\n",
+       "                          1.10341394e-02, -2.75466032e-02,  6.03440392e-04, -1.99978463e-02,\n",
+       "                          1.23137678e-03, -4.57481015e-03, -7.94788240e-04, -2.74380017e-02,\n",
+       "                         -2.12681554e-02, -1.70778632e-02, -2.91341823e-02, -8.52928776e-03,\n",
+       "                         -2.18565483e-02, -6.50337413e-02,  3.29156080e-03,  1.06499000e-02,\n",
+       "                         -3.72955799e-02, -4.14734147e-02, -1.72340255e-02, -6.26930641e-03,\n",
+       "                          1.01680579e-02, -6.34323061e-03, -1.30798426e-02,  7.55766826e-03,\n",
+       "                         -2.14310363e-02,  9.08778515e-03, -8.65524448e-03, -2.03824677e-02,\n",
+       "                          5.15212771e-03, -2.98910979e-02, -9.82086174e-03, -1.11866295e-02],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (layer_2): Dense(\n",
+       "                  192, activation=linear, use_bias=True\n",
+       "                  (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                  array([[ 0.0154759 , -0.02576332,  0.00404997, ..., -0.00521126,\n",
+       "                           0.04450608, -0.00370239],\n",
+       "                         [ 0.00077567,  0.00834506,  0.0076329 , ..., -0.00815574,\n",
+       "                           0.01575315,  0.00813787],\n",
+       "                         [-0.00243796, -0.02777552,  0.01094132, ...,  0.0040098 ,\n",
+       "                          -0.02047189,  0.00089158],\n",
+       "                         ...,\n",
+       "                         [ 0.00186367, -0.00701796,  0.00757268, ..., -0.01737169,\n",
+       "                           0.01926775,  0.02416652],\n",
+       "                         [-0.0084    ,  0.01725122,  0.00900519, ..., -0.01708463,\n",
+       "                          -0.00909884,  0.00487233],\n",
+       "                         [ 0.0065397 ,  0.02798023, -0.02916992, ..., -0.01719729,\n",
+       "                          -0.01533843, -0.01666596]], dtype=float32)>\n",
+       "                  (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                  array([-3.23106279e-03,  2.73664594e-02,  5.38272317e-03,  5.71309309e-03,\n",
+       "                         -5.46634896e-04,  2.22013704e-03,  1.49773974e-02,  6.20168494e-03,\n",
+       "                         -8.19513667e-03,  2.82500382e-03, -1.69281359e-03,  8.09140690e-03,\n",
+       "                          3.99489095e-03, -1.23743759e-02, -1.45957735e-03,  9.94037371e-04,\n",
+       "                         -1.37627004e-02,  1.07092829e-03, -5.37764840e-03,  3.85741843e-03,\n",
+       "                         -1.25507563e-02, -2.63025658e-03, -2.56949551e-02, -1.47574842e-02,\n",
+       "                          1.66687154e-04,  6.83812471e-03,  5.22116423e-02,  4.76287492e-03,\n",
+       "                         -3.54400068e-03, -1.00526242e-02,  2.67302711e-03, -1.34961177e-02,\n",
+       "                          5.71534550e-03,  3.44656815e-04,  1.13983816e-02,  8.33609665e-04,\n",
+       "                          8.16243992e-05, -2.91870069e-03,  9.16961674e-03,  8.43085442e-03,\n",
+       "                          1.26124052e-02,  1.13547873e-03, -3.07413051e-03,  2.48491345e-03,\n",
+       "                         -1.02426969e-02, -7.00559095e-03,  1.00655975e-02,  5.83268981e-03,\n",
+       "                         -6.40235841e-03, -8.73017404e-03,  4.41089040e-03,  6.57710135e-02,\n",
+       "                          5.91188378e-04, -1.16737140e-03,  1.76836830e-02, -4.21638973e-02,\n",
+       "                          6.11289032e-03,  8.90626106e-03,  1.19158467e-02,  1.66966897e-02,\n",
+       "                         -1.35008171e-02, -2.18302105e-03, -3.30431946e-03,  5.49627980e-03,\n",
+       "                          5.10760397e-03,  4.36130771e-03, -9.61869257e-04,  6.56712474e-03,\n",
+       "                         -1.29337963e-02,  1.73818931e-04, -1.06565338e-02, -5.65454597e-04,\n",
+       "                          1.05172284e-02,  6.07373519e-03,  1.60178151e-02,  9.54098534e-04,\n",
+       "                         -1.52010552e-03,  2.04758998e-03,  3.65826790e-03, -1.61308097e-03,\n",
+       "                          2.04016408e-03, -7.15899467e-03,  1.57644860e-02,  6.89404318e-03,\n",
+       "                         -4.98051429e-03,  1.36183444e-02, -1.11078545e-02,  4.77834139e-03,\n",
+       "                         -4.08890983e-03,  1.22761610e-03, -9.72687174e-03, -5.43426862e-03,\n",
+       "                          5.72868623e-03,  8.23560078e-03,  4.25088033e-03,  6.56040898e-03,\n",
+       "                         -3.73540749e-03, -3.67505592e-04, -6.93008397e-03, -1.10439491e-02,\n",
+       "                          8.99555255e-03,  6.78608799e-03, -7.05241458e-03,  7.07072672e-03,\n",
+       "                         -7.77672278e-03, -3.20137828e-03,  5.53456182e-03,  8.69403780e-03,\n",
+       "                         -1.13175549e-02, -5.58375381e-03,  6.87037455e-03, -2.86886329e-03,\n",
+       "                         -1.47898463e-04,  4.64210461e-04, -6.16162084e-03, -1.36557659e-02,\n",
+       "                         -4.64734476e-04, -4.29263618e-03,  6.91230502e-03, -5.49995806e-03,\n",
+       "                          9.66041908e-03,  1.89107824e-02, -1.48586435e-02,  4.66622040e-03,\n",
+       "                          1.02710119e-02, -1.66305453e-02, -2.60800426e-03,  8.97507928e-03,\n",
+       "                          5.57979196e-03, -2.39700079e-03, -1.73408762e-02,  1.57802075e-03,\n",
+       "                          1.15453843e-02,  8.51698406e-03, -4.36798483e-03,  4.39273892e-03,\n",
+       "                         -2.21885880e-03, -1.43881072e-03,  1.14703132e-02,  5.67898387e-03,\n",
+       "                          2.75588818e-02, -1.64260734e-02,  6.63370965e-03, -5.56223327e-03,\n",
+       "                          2.42191995e-03, -1.73986191e-05, -3.89044464e-04,  4.85858833e-03,\n",
+       "                         -2.88667362e-02, -3.83435516e-04, -4.46539326e-03, -1.61635950e-02,\n",
+       "                         -1.60189755e-02, -1.93839613e-03, -1.38700102e-03, -7.39473943e-03,\n",
+       "                         -1.59791298e-03, -2.43104156e-03, -1.48518628e-03,  4.69057634e-03,\n",
+       "                          3.67661822e-04,  3.24303773e-03,  1.47970812e-03,  9.79221240e-03,\n",
+       "                          2.07747985e-03, -5.47263399e-02, -5.85918222e-03, -4.91376314e-03,\n",
+       "                          1.10718114e-02,  1.01551022e-02, -6.17357669e-03, -3.52678960e-03,\n",
+       "                         -1.31586101e-04, -8.31523817e-03, -2.64230114e-03,  7.03247543e-03,\n",
+       "                          1.19563367e-03, -6.30529178e-03, -1.12440642e-02, -2.18651537e-02,\n",
+       "                         -7.47868512e-03, -5.54595143e-03,  4.21872549e-03,  1.38848219e-02,\n",
+       "                          2.71460065e-03,  1.52492069e-03,  3.42028355e-03, -6.87557925e-03,\n",
+       "                         -7.84489699e-03, -7.98486359e-03,  1.17302900e-02, -1.24362262e-03],\n",
+       "                        dtype=float32)>\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (dropout): Dropout(\n",
+       "                  (_feature_shapes): Dict()\n",
+       "                  (_feature_dtypes): Dict()\n",
+       "                )\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (dropout): Dropout(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (_kwargs): Dict(\n",
+       "            (name): 'transformer'\n",
+       "            (trainable): True\n",
+       "            (dtype): 'float32'\n",
+       "          )\n",
+       "          (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "          array([[[ 5.77921560e-03, -3.88921052e-03, -1.54703399e-02,\n",
+       "                    2.71260552e-03, -1.17281987e-03,  5.64246718e-03,\n",
+       "                   -1.62475388e-02, -1.30641898e-02, -9.67620593e-03,\n",
+       "                   -6.53728191e-03,  3.22625809e-03, -1.81555804e-02,\n",
+       "                   -7.86489749e-04,  1.00607835e-02, -6.77544205e-03,\n",
+       "                    6.74685044e-03, -1.41329011e-02,  1.02585871e-02,\n",
+       "                   -7.28685991e-04,  4.03142069e-03,  4.39096242e-04,\n",
+       "                   -4.50375676e-03,  1.21658696e-02, -1.32050067e-02,\n",
+       "                    1.09916562e-02, -9.18584689e-03,  1.58825647e-02,\n",
+       "                    6.07908377e-03, -4.47684480e-03,  1.18370922e-02,\n",
+       "                    1.15364771e-02, -3.48201720e-03,  1.25706978e-02,\n",
+       "                    1.18793100e-02, -7.91663118e-03, -5.18830167e-03,\n",
+       "                    1.16801783e-02,  1.23153096e-02,  1.45396972e-02,\n",
+       "                    4.84432047e-03, -1.39967902e-02, -7.34205171e-03,\n",
+       "                    6.88960496e-03, -4.80244606e-04, -3.73701565e-03,\n",
+       "                    2.92954943e-03,  5.28011005e-03, -1.43642398e-02,\n",
+       "                   -6.49388321e-03,  1.76820136e-03,  3.69729172e-03,\n",
+       "                    4.42247279e-03,  2.65734154e-03,  6.91311387e-03,\n",
+       "                    7.37582054e-03, -9.37604997e-03, -9.55958012e-03,\n",
+       "                    4.59122658e-03, -2.61855032e-03, -5.45106921e-03,\n",
+       "                   -2.24188925e-03, -1.47799598e-02,  1.99776878e-05,\n",
+       "                    1.44798942e-02,  4.12537856e-03, -1.03824753e-02,\n",
+       "                    1.49776665e-02, -1.27608450e-02,  1.58145204e-02,\n",
+       "                   -2.67113117e-03,  4.71693324e-03,  1.32525072e-03,\n",
+       "                    1.17467521e-02,  2.54606898e-03, -1.87330123e-03,\n",
+       "                   -1.63365975e-02,  1.25660775e-02,  4.72261745e-04,\n",
+       "                   -3.24072596e-03, -5.67087578e-03,  2.84392014e-03,\n",
+       "                   -9.57878365e-04,  4.79734456e-03, -3.40607972e-03,\n",
+       "                   -1.56934485e-02,  1.30519662e-02, -1.08772153e-02,\n",
+       "                   -1.45522840e-02,  1.02441367e-02, -1.09306127e-02,\n",
+       "                   -1.52621465e-02, -8.02758988e-03, -1.70116369e-02,\n",
+       "                    2.46132608e-03,  9.62964911e-03,  1.14286207e-02,\n",
+       "                    1.36147542e-02, -3.05876276e-03, -1.05851013e-02,\n",
+       "                    1.15959544e-03,  6.59532519e-03, -3.13923717e-03,\n",
+       "                    9.85705387e-03, -3.61493230e-03,  3.47581925e-03,\n",
+       "                   -9.08834487e-03,  4.82335308e-04,  1.37247914e-03,\n",
+       "                   -3.50609160e-04, -3.27813323e-03, -5.61682682e-04,\n",
+       "                   -1.22349560e-02, -5.72275929e-03,  7.51505466e-03,\n",
+       "                    1.81504886e-03,  1.19993566e-02,  8.24969495e-04,\n",
+       "                    8.65781913e-04, -1.57240516e-04,  1.39818722e-02,\n",
+       "                   -1.75076891e-02, -3.13527836e-03,  8.43182299e-03,\n",
+       "                   -3.18556733e-04,  2.53572455e-03, -2.53666658e-03,\n",
+       "                    1.31535046e-02,  8.38572159e-03, -6.97441213e-03,\n",
+       "                    1.84246916e-02, -6.73079258e-03,  1.49125131e-02,\n",
+       "                   -9.80807841e-03, -6.67121494e-03, -4.32675099e-03,\n",
+       "                    8.86392372e-04,  1.13881696e-02, -3.64286243e-03,\n",
+       "                   -1.27661536e-02,  5.76637033e-03, -1.87941324e-02,\n",
+       "                   -6.02238160e-03, -1.03929741e-02, -8.80926661e-03,\n",
+       "                   -3.80813982e-03,  9.45396535e-03, -1.88170914e-02,\n",
+       "                    8.08288343e-03, -1.36293136e-02,  7.88161159e-03,\n",
+       "                   -9.55417287e-03,  6.48603542e-03,  4.02289443e-03,\n",
+       "                    6.29892433e-03, -4.87634493e-03,  9.85367782e-03,\n",
+       "                   -1.36604840e-02,  1.20045419e-03,  7.17868144e-03,\n",
+       "                    3.35687096e-03, -1.46159260e-02,  1.09550674e-02,\n",
+       "                   -1.39297824e-02, -2.44791643e-03,  1.03627667e-02,\n",
+       "                   -1.55246304e-02,  4.99522220e-03, -6.11118600e-03,\n",
+       "                   -9.54537187e-03,  1.51828043e-02, -5.09335613e-03,\n",
+       "                    4.23298730e-03, -1.82825513e-02,  6.68561691e-03,\n",
+       "                   -1.18543836e-03,  4.25768830e-03, -6.68309815e-03,\n",
+       "                   -3.44021083e-03,  6.31043361e-03, -6.84611080e-03,\n",
+       "                    3.71403666e-03,  1.25054484e-02, -2.05762568e-03,\n",
+       "                   -2.28846306e-03, -7.55040813e-03,  7.25472951e-03,\n",
+       "                    3.65318428e-03, -6.14711316e-03, -1.25991441e-02,\n",
+       "                    2.10878160e-03,  9.57752764e-03,  3.22542666e-03]]],\n",
+       "                dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (transformer_pre): PrepareTransformerInputs(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (transformer_post): LastHiddenState(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_masking_post): SequentialBlock(\n",
+       "          (layers): List(\n",
+       "            (0): TransformerOutputToRagged(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): TransformerInferenceHiddenState(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_masking_pre): SequentialBlock(\n",
+       "          (layers): List(\n",
+       "            (0): SequenceCausalLastInference(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (1): ExtractMaskFromTargets(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "          )\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  ), SequentialBlock(\n",
+       "    (layers): List(\n",
+       "      (0): _Dense(\n",
+       "        (dense): Dense(\n",
+       "          448, activation=linear, use_bias=True\n",
+       "          (kernel): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/kernel:0' shape=(192, 448) dtype=float32, numpy=\n",
+       "          array([[ 0.09271085, -0.05067786,  0.00269962, ...,  0.01964356,\n",
+       "                  -0.00535121, -0.00666496],\n",
+       "                 [ 0.02550647,  0.06408789,  0.03492421, ...,  0.0186316 ,\n",
+       "                   0.06905927, -0.03049176],\n",
+       "                 [-0.00459189,  0.01398249,  0.09019134, ...,  0.0050606 ,\n",
+       "                  -0.0279029 , -0.09574635],\n",
+       "                 ...,\n",
+       "                 [-0.01772239, -0.08053757, -0.12503874, ...,  0.11029194,\n",
+       "                   0.03109485, -0.1258514 ],\n",
+       "                 [-0.12035843,  0.02548869, -0.0421893 , ...,  0.04828804,\n",
+       "                  -0.1398632 ,  0.07690474],\n",
+       "                 [-0.07400129,  0.05999898,  0.10110385, ..., -0.0480581 ,\n",
+       "                  -0.10552616, -0.03121351]], dtype=float32)>\n",
+       "          (bias): <tf.Variable 'model/sequential_block_5/private__dense_5/dense_5/bias:0' shape=(448,) dtype=float32, numpy=\n",
+       "          array([ 0.0262277 ,  0.07916261,  0.07833479,  0.04844515,  0.02486947,\n",
+       "                 -0.04457697, -0.026934  , -0.07299037,  0.01656096, -0.00593399,\n",
+       "                  0.06225468,  0.02499584,  0.04374276,  0.00087861, -0.03477985,\n",
+       "                 -0.01347259,  0.09110282, -0.01146619, -0.09992975, -0.03398724,\n",
+       "                  0.0130066 ,  0.00831693,  0.00050039,  0.09346852,  0.02447305,\n",
+       "                 -0.02165293, -0.03478578, -0.04490198,  0.03371359, -0.03349705,\n",
+       "                 -0.03772952, -0.00145037, -0.00921766,  0.03591152, -0.04608314,\n",
+       "                 -0.06082739,  0.03436188,  0.01465061,  0.04725547,  0.04686761,\n",
+       "                  0.0485479 , -0.07350776, -0.00500662, -0.0126614 , -0.05544547,\n",
+       "                  0.02563262, -0.00089102, -0.00593263, -0.0493653 , -0.02824682,\n",
+       "                  0.00252767, -0.06312783, -0.05131607, -0.05953573, -0.08053332,\n",
+       "                 -0.04629495,  0.00949352,  0.05935158,  0.05273044,  0.07985421,\n",
+       "                  0.03309692, -0.00779833, -0.06075706,  0.0283934 ,  0.04051297,\n",
+       "                  0.0132848 ,  0.05229554,  0.04407602,  0.03939356,  0.01372752,\n",
+       "                 -0.02001463, -0.00115727, -0.03582368,  0.07153074,  0.04498402,\n",
+       "                  0.08615206, -0.03714898,  0.06475762, -0.0467198 ,  0.05259514,\n",
+       "                 -0.01920241, -0.03177139,  0.00071799, -0.04363505,  0.0079109 ,\n",
+       "                  0.01513265,  0.05259855, -0.08148018,  0.04569819,  0.04715525,\n",
+       "                  0.04112545, -0.05331429, -0.00151575, -0.04622235,  0.00240089,\n",
+       "                  0.01654435, -0.02369649, -0.03016963,  0.0662708 ,  0.0864861 ,\n",
+       "                  0.03242542, -0.03099481,  0.01259357,  0.04766602, -0.01792222,\n",
+       "                 -0.0286317 , -0.04604987, -0.0161281 , -0.01872158, -0.03786641,\n",
+       "                 -0.05192579,  0.05274728, -0.06642494,  0.06242529, -0.01505555,\n",
+       "                 -0.03534015,  0.03653646, -0.00748947, -0.01395056,  0.022806  ,\n",
+       "                  0.04268783, -0.09711305, -0.00926052,  0.05629712, -0.00279077,\n",
+       "                  0.02838318, -0.05086834,  0.05441212,  0.05451567,  0.03220775,\n",
+       "                  0.01133917,  0.00857362,  0.00799026,  0.05764759,  0.11490685,\n",
+       "                  0.04906664, -0.04622314, -0.01676269, -0.02209472,  0.04723295,\n",
+       "                 -0.02233496,  0.012622  , -0.0369081 ,  0.05327609,  0.04440735,\n",
+       "                 -0.06566139, -0.00780287,  0.03878445,  0.02423353, -0.05809183,\n",
+       "                  0.0346261 ,  0.03689033,  0.00699235, -0.00945178, -0.0391787 ,\n",
+       "                 -0.04114757,  0.03350327, -0.04124648,  0.02528511, -0.00421079,\n",
+       "                 -0.03756387, -0.07624245,  0.03247399,  0.03814854,  0.04128008,\n",
+       "                 -0.04591415,  0.00376575,  0.1127994 ,  0.06287305,  0.03132299,\n",
+       "                 -0.03899878, -0.0378317 , -0.00387452, -0.04470467, -0.03270439,\n",
+       "                 -0.04496109, -0.02963659, -0.03670995, -0.03152657,  0.09228558,\n",
+       "                  0.04528368,  0.04792978,  0.07495417,  0.03088907, -0.01959505,\n",
+       "                 -0.04722258,  0.01850389,  0.04263849, -0.04733535, -0.09615566,\n",
+       "                 -0.01068955, -0.04326089,  0.0583483 , -0.02472283, -0.04302539,\n",
+       "                 -0.0589472 , -0.04672269,  0.07022169, -0.0234746 ,  0.03849421,\n",
+       "                 -0.00662679,  0.05253939, -0.1026345 , -0.01698712,  0.07404386,\n",
+       "                  0.03389754,  0.02897918, -0.05840521,  0.01556936,  0.00611654,\n",
+       "                 -0.01742992, -0.0119619 ,  0.01128774, -0.03231941,  0.00489128,\n",
+       "                 -0.03229102, -0.00192445,  0.087956  , -0.02289246,  0.05073623,\n",
+       "                  0.05487783,  0.05026655,  0.00806829,  0.08601656, -0.06878702,\n",
+       "                 -0.07842787, -0.01938755, -0.03757913,  0.09065964, -0.06368742,\n",
+       "                  0.03698373,  0.0704601 ,  0.04212342, -0.01843886,  0.04050059,\n",
+       "                 -0.01959538,  0.01500784,  0.01788381, -0.00539926,  0.02321255,\n",
+       "                  0.05505588,  0.059435  ,  0.04370816, -0.00596996,  0.03684248,\n",
+       "                 -0.08345304,  0.03620127, -0.00890046, -0.08368102,  0.03956809,\n",
+       "                 -0.04427445,  0.03209067, -0.03636771, -0.01445735,  0.07809169,\n",
+       "                  0.01957514,  0.06654216, -0.02929065,  0.00466224,  0.00413273,\n",
+       "                  0.01088349,  0.09659255, -0.03269784, -0.03190348,  0.0273189 ,\n",
+       "                 -0.02250932,  0.02978531,  0.01111213,  0.02066516,  0.01789268,\n",
+       "                 -0.06876887,  0.04248217, -0.05766553,  0.0774762 , -0.06345914,\n",
+       "                 -0.01688652,  0.01972925,  0.01715375,  0.03492528,  0.04280749,\n",
+       "                 -0.05232806,  0.09609558,  0.04227792,  0.02204678,  0.05023973,\n",
+       "                 -0.03466542,  0.05485268,  0.04085873, -0.02647908,  0.01040982,\n",
+       "                 -0.04720033, -0.05041051,  0.08021346, -0.05948207, -0.00111661,\n",
+       "                  0.01046512, -0.10382538, -0.10452797, -0.08492647, -0.03490066,\n",
+       "                  0.03609198,  0.08244296, -0.04491632, -0.0684461 , -0.00751427,\n",
+       "                  0.04663202,  0.02285159,  0.09028994,  0.04409272, -0.04833001,\n",
+       "                 -0.02181811,  0.03753583, -0.02981216, -0.02498405, -0.03335025,\n",
+       "                  0.03216111,  0.00067834, -0.02966238,  0.06925729, -0.04695507,\n",
+       "                  0.04308482, -0.05376603, -0.07835762,  0.04627649, -0.01509223,\n",
+       "                  0.04570295,  0.06030247, -0.04407784, -0.12932287, -0.01847724,\n",
+       "                 -0.02291278,  0.0169606 ,  0.06902849,  0.0333349 , -0.03707106,\n",
+       "                 -0.04176294, -0.00599479, -0.00491009,  0.03109136, -0.06764336,\n",
+       "                  0.02749346, -0.05904518, -0.05852734, -0.04939546,  0.05750062,\n",
+       "                  0.01522841,  0.04763729,  0.03257649, -0.04401055,  0.01093766,\n",
+       "                  0.08056658, -0.04196288,  0.02362602,  0.03279087,  0.01731345,\n",
+       "                 -0.00497695, -0.013705  , -0.04774305, -0.00836525, -0.04396048,\n",
+       "                 -0.03563185, -0.0759912 , -0.00918682, -0.03704087,  0.00933389,\n",
+       "                 -0.03628042,  0.02707206, -0.03659733, -0.00650084, -0.04686603,\n",
+       "                  0.0542635 , -0.01005113,  0.02681901,  0.04934146, -0.05838657,\n",
+       "                  0.03962182, -0.03388702,  0.00553793,  0.07104219, -0.04501363,\n",
+       "                  0.04264814, -0.01707361,  0.05577169, -0.00122917,  0.02515726,\n",
+       "                 -0.0686296 , -0.03270551, -0.01507786, -0.0156195 , -0.03062619,\n",
+       "                 -0.04064598, -0.04346093, -0.03997001, -0.06137661, -0.00573199,\n",
+       "                 -0.06196317, -0.01378627,  0.07845749, -0.03032278, -0.00386489,\n",
+       "                 -0.02062431,  0.03310632,  0.00289325,  0.07979491,  0.09162334,\n",
+       "                  0.01514282,  0.00383376, -0.01475558,  0.00855443,  0.01483825,\n",
+       "                 -0.00537957,  0.03792995,  0.06129476, -0.04960939, -0.04996918,\n",
+       "                  0.05726391, -0.07830272,  0.0421092 ,  0.08583298, -0.03552784,\n",
+       "                 -0.04582022,  0.02331894,  0.05114861, -0.01185646,  0.04388508,\n",
+       "                  0.04838688, -0.00661965, -0.00127561, -0.1108835 ,  0.04998656,\n",
+       "                  0.06167242, -0.02780476,  0.06033147,  0.10185456, -0.00426198,\n",
+       "                  0.02362934,  0.04063177,  0.03453651, -0.04289757,  0.05463417,\n",
+       "                  0.00052229, -0.03150426,  0.04604247, -0.00558233, -0.03272512,\n",
+       "                  0.02968265, -0.01897252,  0.03323521], dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  ), CategoricalOutput(\n",
+       "    (to_call): EmbeddingTablePrediction(\n",
+       "      (table): EmbeddingTable(\n",
+       "        (features): Dict(\n",
+       "          (sess_pid_seq): ColumnSchema(name='sess_pid_seq', tags={<Tags.ID: 'id'>, <Tags.LIST: 'list'>, <Tags.CATEGORICAL: 'categorical'>, <Tags.ITEM: 'item'>, <Tags.ITEM_ID: 'item_id'>}, properties={'domain': {'min': 1, 'max': 390000, 'name': 'sess_pid_seq'}, 'value_count': {'min': 2, 'max': None}}, dtype=DType(name='int64', element_type=<ElementType.Int: 'int'>, element_size=64, element_unit=None, signed=True, shape=Shape(dims=(Dimension(min=0, max=None), Dimension(min=2, max=None)))), is_list=True, is_ragged=True)\n",
+       "        )\n",
+       "        (table): Embedding(\n",
+       "          (embeddings): <tf.Variable 'model/embeddings:0' shape=(390001, 448) dtype=float32, numpy=\n",
+       "          array([[-0.02180919, -0.03997137, -0.11179104, ..., -0.03416266,\n",
+       "                   0.00394675, -0.04170727],\n",
+       "                 [ 0.0271936 ,  0.00224299, -0.03736906, ...,  0.05833315,\n",
+       "                  -0.01913971,  0.01903887],\n",
+       "                 [ 0.08746263,  0.0086189 , -0.0169563 , ...,  0.0481042 ,\n",
+       "                  -0.04499301,  0.05150751],\n",
+       "                 ...,\n",
+       "                 [-0.06129743, -0.01724566, -0.03767433, ..., -0.05394596,\n",
+       "                   0.0200046 , -0.03031199],\n",
+       "                 [-0.03149989, -0.05066097, -0.10494142, ...,  0.01400184,\n",
+       "                   0.03784238, -0.00830359],\n",
+       "                 [-0.06853955, -0.0693624 , -0.0943587 , ...,  0.03133552,\n",
+       "                  -0.01350261, -0.00852626]], dtype=float32)>\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (output_layer_bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
+       "      array([-0.15765153,  0.04031641,  0.04843438, ..., -0.15027185,\n",
+       "             -0.1580542 , -0.15657912], dtype=float32)>\n",
+       "      (bias): <tf.Variable 'model/output_layer_bias:0' shape=(390001,) dtype=float32, numpy=\n",
+       "      array([-0.15765153,  0.04031641,  0.04843438, ..., -0.15027185,\n",
+       "             -0.1580542 , -0.15657912], dtype=float32)>\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  )))\n",
+       "  (context): ModelContext(\n",
+       "    (_feature_shapes): Dict()\n",
+       "    (_feature_dtypes): Dict()\n",
+       "  )\n",
+       "  (_prepare_features): PrepareFeatures(\n",
+       "    (prepare_lists): PrepareListFeatures()\n",
+       "  )\n",
+       "  (output_names): List(\n",
+       "    (0): 'sess_pid_seq/categorical_output'\n",
+       "  )\n",
+       "  (optimizer): Adam()\n",
+       "  (loss): Dict(\n",
+       "    (sess_pid_seq/categorical_output): CategoricalCrossEntropy()\n",
+       "  )\n",
+       "  (train_pre): SequencePredictNext(\n",
+       "    (_pre): SequentialBlock(\n",
+       "      (layers): List(\n",
+       "        (0): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "        (1): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "      )\n",
+       "      (prepare_lists): PrepareListFeatures()\n",
+       "    )\n",
+       "    (transformer): XLNetBlock(\n",
+       "      (transformer): TFXLNetMainLayer(\n",
+       "        (word_embedding): TFSharedEmbeddings(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (layer): List(\n",
+       "          (0): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9989502 , 1.0576062 , 1.0346638 , 1.0038435 , 1.0374217 ,\n",
+       "                       0.9977826 , 0.97864133, 0.98316896, 0.9935035 , 0.9916651 ,\n",
+       "                       1.015681  , 1.0290096 , 0.9808166 , 1.0257354 , 1.000677  ,\n",
+       "                       0.9632928 , 1.044944  , 1.0062993 , 1.0191413 , 1.0176857 ,\n",
+       "                       1.0402725 , 1.0175707 , 0.98682123, 0.97339106, 0.9845099 ,\n",
+       "                       0.9804151 , 1.0213319 , 1.0054113 , 1.0528314 , 0.9889174 ,\n",
+       "                       0.9937365 , 1.0097672 , 1.0127248 , 1.006905  , 1.015017  ,\n",
+       "                       1.0074348 , 1.0236213 , 1.0611415 , 0.9670407 , 0.95555675,\n",
+       "                       1.016661  , 1.0175687 , 0.9885798 , 1.0268141 , 0.99260455,\n",
+       "                       1.0130196 , 0.96392965, 1.0521348 , 1.005183  , 0.9902206 ,\n",
+       "                       0.986818  , 1.0324047 , 1.0282564 , 1.0029398 , 0.97551364,\n",
+       "                       1.0035061 , 1.0430536 , 1.0239351 , 1.0063419 , 1.0468767 ,\n",
+       "                       1.0370821 , 0.98937815, 0.9625464 , 0.99105746, 1.0044199 ,\n",
+       "                       1.0211848 , 0.9974975 , 1.022141  , 1.0122687 , 1.0115696 ,\n",
+       "                       1.0342648 , 0.9763004 , 1.007962  , 1.0222591 , 1.000258  ,\n",
+       "                       0.99757713, 0.9835959 , 1.0415024 , 0.9692734 , 1.0120147 ,\n",
+       "                       0.9842971 , 0.97031707, 0.9745148 , 1.0065541 , 0.9942128 ,\n",
+       "                       1.0173663 , 1.0420299 , 1.0106033 , 1.0227505 , 0.97091013,\n",
+       "                       0.99910146, 1.0036598 , 0.9966806 , 1.0628989 , 0.9995429 ,\n",
+       "                       1.0375715 , 1.0593297 , 1.022408  , 1.0155457 , 1.0130228 ,\n",
+       "                       0.98888063, 1.0000523 , 1.0237609 , 1.0044953 , 0.99615127,\n",
+       "                       0.9612573 , 1.0305171 , 1.0335096 , 1.0161718 , 1.0182958 ,\n",
+       "                       1.0195628 , 0.98464763, 1.0137556 , 1.0186883 , 1.0172639 ,\n",
+       "                       0.9758079 , 1.0113739 , 1.0006955 , 1.0438493 , 1.0092262 ,\n",
+       "                       1.0062629 , 1.0154696 , 1.0118166 , 0.99463564, 1.013566  ,\n",
+       "                       1.0239315 , 0.9455156 , 1.0182073 , 1.0032462 , 0.96416503,\n",
+       "                       1.0194111 , 1.032431  , 0.9965644 , 1.002404  , 1.0118709 ,\n",
+       "                       1.0253462 , 0.996495  , 1.0395119 , 1.0123875 , 1.0056695 ,\n",
+       "                       1.028315  , 1.0058223 , 1.0289586 , 0.9974421 , 1.0387748 ,\n",
+       "                       0.99552464, 1.0344083 , 1.031274  , 1.025091  , 1.0181113 ,\n",
+       "                       1.0315706 , 1.0073855 , 0.9761123 , 1.0203675 , 0.9985076 ,\n",
+       "                       0.96607   , 1.0553861 , 0.98623693, 1.026023  , 1.0687001 ,\n",
+       "                       0.9897466 , 1.0263782 , 1.0701145 , 0.96022284, 0.978006  ,\n",
+       "                       1.0212058 , 1.0096318 , 0.98825616, 0.99732673, 1.0245711 ,\n",
+       "                       1.0135304 , 1.0025978 , 0.9863238 , 1.0285221 , 0.9803323 ,\n",
+       "                       1.0442008 , 1.0270132 , 1.0278133 , 0.9959899 , 1.0158675 ,\n",
+       "                       0.97460854, 1.0063546 , 1.0306209 , 1.0761561 , 1.0264145 ,\n",
+       "                       0.9893562 , 1.0281392 , 1.0187237 , 0.97821856, 1.0211488 ,\n",
+       "                       1.0148977 , 0.98631346], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01564801,  0.05031539,  0.00410429, -0.01065608, -0.02726947,\n",
+       "                        0.02508902,  0.00038222,  0.0164835 , -0.02004843, -0.02176234,\n",
+       "                       -0.04638448,  0.02115005,  0.02569144, -0.00894257,  0.00444741,\n",
+       "                        0.01192614, -0.02655895, -0.01222136, -0.02186232,  0.02919175,\n",
+       "                       -0.01799272,  0.0262308 , -0.00777147,  0.01395177, -0.01551217,\n",
+       "                        0.02763644,  0.02442515,  0.03102502, -0.01572912,  0.01635238,\n",
+       "                       -0.01084259, -0.00567258, -0.02127197,  0.01155333,  0.00471407,\n",
+       "                        0.03379904,  0.00862479, -0.01966641, -0.02059177, -0.03856507,\n",
+       "                        0.01532526,  0.00795538,  0.00731614,  0.03556439,  0.01201337,\n",
+       "                       -0.00874254, -0.04334877,  0.01023173, -0.01064972,  0.02030286,\n",
+       "                       -0.01186844,  0.04643561, -0.01453828,  0.02887264, -0.00915464,\n",
+       "                       -0.02330581, -0.03368274,  0.01621977,  0.0291714 ,  0.00578914,\n",
+       "                       -0.00057888,  0.0185579 ,  0.00812104, -0.00980973,  0.01644247,\n",
+       "                        0.00089342, -0.0025648 ,  0.01388613, -0.01212206,  0.00365601,\n",
+       "                        0.01405088,  0.011668  ,  0.00313982,  0.02685886,  0.0206239 ,\n",
+       "                        0.0058649 , -0.00263495,  0.04062287, -0.03826027, -0.00315069,\n",
+       "                       -0.01107017, -0.00134605, -0.00060359,  0.00954621, -0.01417858,\n",
+       "                        0.02703607, -0.02937767, -0.01266916,  0.00296571, -0.01783368,\n",
+       "                       -0.01472187,  0.01814925, -0.0040843 ,  0.00669216,  0.034233  ,\n",
+       "                        0.00960267, -0.02075798, -0.03373486,  0.02624991, -0.01618384,\n",
+       "                        0.02431716,  0.02215847, -0.02458511,  0.00027981,  0.00465162,\n",
+       "                       -0.01309961, -0.00513958,  0.00866651, -0.02965664,  0.01000427,\n",
+       "                        0.04259624,  0.01365784,  0.00716883, -0.02355205, -0.00349983,\n",
+       "                        0.01176547,  0.01298331, -0.00865425,  0.01498848, -0.01449755,\n",
+       "                        0.02386551, -0.0146591 ,  0.02687347, -0.01478878,  0.00625256,\n",
+       "                        0.00282382,  0.01835389,  0.01584293,  0.02580659, -0.01374832,\n",
+       "                       -0.01775724, -0.00105102, -0.02854055,  0.00875541,  0.00043491,\n",
+       "                       -0.04452521, -0.01476665, -0.01148101, -0.01217891, -0.00160031,\n",
+       "                        0.0057057 , -0.0168117 ,  0.03591807,  0.00512471,  0.0027506 ,\n",
+       "                       -0.00039103,  0.00481961, -0.01031037,  0.01574421, -0.02259344,\n",
+       "                       -0.01047808,  0.00495247, -0.02535135, -0.01565124,  0.00210174,\n",
+       "                       -0.00781817, -0.04997245, -0.01766316, -0.01142531, -0.01968011,\n",
+       "                        0.00650187,  0.03887424, -0.00735652, -0.00948206,  0.0062764 ,\n",
+       "                       -0.01378202, -0.01511695,  0.04289937,  0.01610814,  0.02360756,\n",
+       "                        0.0086963 ,  0.01288334, -0.0007249 ,  0.00063419,  0.00933304,\n",
+       "                        0.00634397,  0.00677541, -0.01751881, -0.01359569, -0.009512  ,\n",
+       "                        0.00685608, -0.01254726, -0.01196539,  0.00532526, -0.03268864,\n",
+       "                       -0.00706812, -0.01631153, -0.01945196, -0.0313373 , -0.00119667,\n",
+       "                       -0.02276768,  0.01590502], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.07465401,  0.06472938,  0.07060932, ..., -0.08073311,\n",
+       "                        0.07338328,  0.06063193],\n",
+       "                      [ 0.06749107, -0.07578631,  0.07652911, ...,  0.07553609,\n",
+       "                       -0.07781389,  0.05728458],\n",
+       "                      [ 0.07914475, -0.07096852,  0.0758997 , ..., -0.07451519,\n",
+       "                        0.08720462,  0.07374965],\n",
+       "                      ...,\n",
+       "                      [-0.0663526 , -0.06575809,  0.0565715 , ...,  0.09362454,\n",
+       "                        0.04912814,  0.08134829],\n",
+       "                      [ 0.07272896,  0.05966271,  0.05624672, ...,  0.05355152,\n",
+       "                        0.06333862,  0.07617778],\n",
+       "                      [-0.04439021,  0.05825948, -0.05253003, ..., -0.04820357,\n",
+       "                       -0.06917557,  0.07237349]],\n",
+       "              \n",
+       "                     [[-0.10011533, -0.11412048, -0.09385281, ...,  0.08717619,\n",
+       "                       -0.08888666, -0.0993549 ],\n",
+       "                      [-0.05448947,  0.03732244, -0.03167331, ..., -0.04544163,\n",
+       "                        0.04660046, -0.02991796],\n",
+       "                      [-0.06950059,  0.07803331, -0.08058758, ...,  0.07841507,\n",
+       "                       -0.10456846, -0.08787055],\n",
+       "                      ...,\n",
+       "                      [ 0.0630033 ,  0.06069206, -0.06263281, ..., -0.04891612,\n",
+       "                       -0.0542945 , -0.07239168],\n",
+       "                      [-0.00758942,  0.01119974,  0.01332581, ..., -0.01286488,\n",
+       "                        0.00207401,  0.00079829],\n",
+       "                      [ 0.06658119, -0.05085666,  0.06656442, ...,  0.07660682,\n",
+       "                        0.07427317, -0.06252758]],\n",
+       "              \n",
+       "                     [[-0.11073057, -0.10081359, -0.12153006, ...,  0.11317257,\n",
+       "                       -0.10553624, -0.10985853],\n",
+       "                      [-0.09318667,  0.07455036, -0.090079  , ..., -0.09517727,\n",
+       "                        0.08885422, -0.09878843],\n",
+       "                      [-0.0701437 ,  0.05605372, -0.07704974, ...,  0.06382198,\n",
+       "                       -0.07163794, -0.06376936],\n",
+       "                      ...,\n",
+       "                      [ 0.06640515,  0.06422191, -0.03999973, ..., -0.05697949,\n",
+       "                       -0.05197844, -0.0753065 ],\n",
+       "                      [-0.0482451 , -0.03754503, -0.0361612 , ..., -0.0442449 ,\n",
+       "                       -0.05040614, -0.03695468],\n",
+       "                      [ 0.08578547, -0.11016572,  0.09932826, ...,  0.09526014,\n",
+       "                        0.07219096, -0.09667978]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.08899453,  0.08351997,  0.08101685, ..., -0.06629151,\n",
+       "                        0.08502361,  0.07621197],\n",
+       "                      [ 0.05743176, -0.06251122,  0.06233266, ...,  0.05806597,\n",
+       "                       -0.06832655,  0.03377869],\n",
+       "                      [ 0.10216253, -0.08750022,  0.07817484, ..., -0.08476172,\n",
+       "                        0.05987116,  0.07416327],\n",
+       "                      ...,\n",
+       "                      [-0.07072166, -0.06108825,  0.06093866, ...,  0.05758123,\n",
+       "                        0.06326196,  0.06588235],\n",
+       "                      [ 0.01994142,  0.02066598,  0.03568684, ...,  0.01882937,\n",
+       "                        0.02734543,  0.02604944],\n",
+       "                      [-0.06781037,  0.06784602, -0.07872033, ..., -0.07433689,\n",
+       "                       -0.09181566,  0.08851271]],\n",
+       "              \n",
+       "                     [[-0.02606016, -0.02737696, -0.01055808, ...,  0.02336601,\n",
+       "                       -0.01676143, -0.02515292],\n",
+       "                      [-0.01419585, -0.00202125,  0.00385271, ...,  0.00217426,\n",
+       "                       -0.00383362, -0.02988884],\n",
+       "                      [ 0.05142671, -0.03943966,  0.0374524 , ..., -0.02985014,\n",
+       "                        0.05794137,  0.04038725],\n",
+       "                      ...,\n",
+       "                      [ 0.04279425,  0.04664461, -0.04529398, ..., -0.03161315,\n",
+       "                       -0.03006786, -0.04242131],\n",
+       "                      [ 0.06091673,  0.04921605,  0.03961667, ...,  0.04841657,\n",
+       "                        0.06400887,  0.07853462],\n",
+       "                      [ 0.0035573 ,  0.00629171, -0.00918715, ..., -0.01010308,\n",
+       "                        0.00100685,  0.01805877]],\n",
+       "              \n",
+       "                     [[-0.19375055, -0.20809007, -0.20518027, ...,  0.20026137,\n",
+       "                       -0.19558044, -0.19182122],\n",
+       "                      [-0.21756965,  0.22040519, -0.2200476 , ..., -0.22124195,\n",
+       "                        0.22402586, -0.20523962],\n",
+       "                      [-0.24113753,  0.22089581, -0.2396485 , ...,  0.23252076,\n",
+       "                       -0.2084851 , -0.22979937],\n",
+       "                      ...,\n",
+       "                      [ 0.22055982,  0.21025379, -0.21311197, ..., -0.23441206,\n",
+       "                       -0.20681979, -0.21566269],\n",
+       "                      [-0.1896753 , -0.17930022, -0.17912784, ..., -0.16986312,\n",
+       "                       -0.18861811, -0.14778696],\n",
+       "                      [ 0.19786158, -0.22164111,  0.23266463, ...,  0.21371098,\n",
+       "                        0.1959268 , -0.20853978]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.03982621,  0.04634362,  0.02969166, ..., -0.04535549,\n",
+       "                        0.03976392,  0.03817748],\n",
+       "                      [ 0.02065867, -0.02277696,  0.01796075, ...,  0.0193889 ,\n",
+       "                       -0.01798368, -0.00012475],\n",
+       "                      [-0.05693278,  0.06433725, -0.06601404, ...,  0.07023417,\n",
+       "                       -0.0644145 , -0.05952094],\n",
+       "                      ...,\n",
+       "                      [ 0.03724918,  0.02224839, -0.01713489, ..., -0.01764813,\n",
+       "                       -0.03095339, -0.02385698],\n",
+       "                      [-0.02685979, -0.03892907, -0.0352765 , ..., -0.03908732,\n",
+       "                       -0.03731468, -0.03116913],\n",
+       "                      [ 0.02750592, -0.02940916,  0.03723293, ...,  0.04330644,\n",
+       "                        0.01890267, -0.01717454]],\n",
+       "              \n",
+       "                     [[-0.03354729, -0.03685676, -0.03322748, ...,  0.00274901,\n",
+       "                       -0.01665791, -0.0148938 ],\n",
+       "                      [-0.03874097,  0.05202375, -0.04577698, ..., -0.02982778,\n",
+       "                        0.05710219, -0.03194526],\n",
+       "                      [ 0.00738964, -0.00594813, -0.02685028, ...,  0.01640934,\n",
+       "                       -0.00999039, -0.0257416 ],\n",
+       "                      ...,\n",
+       "                      [ 0.05005649,  0.04650406, -0.0339541 , ..., -0.03088401,\n",
+       "                       -0.03641143, -0.05107675],\n",
+       "                      [-0.03754756, -0.04477862, -0.02373394, ..., -0.04477538,\n",
+       "                       -0.0326349 , -0.0359891 ],\n",
+       "                      [ 0.04423146, -0.05135956,  0.05516965, ...,  0.06424858,\n",
+       "                        0.03283761, -0.06065867]],\n",
+       "              \n",
+       "                     [[ 0.08610801,  0.0792455 ,  0.08716258, ..., -0.08730735,\n",
+       "                        0.0859801 ,  0.06665679],\n",
+       "                      [ 0.02973051, -0.05987825,  0.0507506 , ...,  0.03947309,\n",
+       "                       -0.04543421,  0.05414715],\n",
+       "                      [ 0.04466533, -0.06287424,  0.05043598, ..., -0.04664594,\n",
+       "                        0.07069402,  0.04471494],\n",
+       "                      ...,\n",
+       "                      [-0.0437069 , -0.03004871,  0.04597325, ...,  0.04288679,\n",
+       "                        0.02764161,  0.03305215],\n",
+       "                      [ 0.02189361,  0.03663293,  0.03532149, ...,  0.02713455,\n",
+       "                        0.02633648,  0.03900206],\n",
+       "                      [-0.06676853,  0.05484065, -0.06289707, ..., -0.07485867,\n",
+       "                       -0.07037278,  0.0603456 ]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00853173,  0.02272682, -0.00073874, ..., -0.02110041,\n",
+       "                        0.00689003,  0.002274  ],\n",
+       "                      [ 0.02738365, -0.01524352,  0.00340239, ...,  0.00913391,\n",
+       "                       -0.00663603,  0.00939901],\n",
+       "                      [-0.01470056, -0.00161049, -0.0129185 , ...,  0.0195723 ,\n",
+       "                       -0.00395532, -0.02813762],\n",
+       "                      ...,\n",
+       "                      [-0.01113444,  0.0028391 , -0.00770884, ..., -0.00617313,\n",
+       "                       -0.00045944,  0.01071145],\n",
+       "                      [-0.03531639, -0.02128815, -0.01397392, ..., -0.0180376 ,\n",
+       "                       -0.02603853, -0.01086281],\n",
+       "                      [ 0.03301041, -0.05099879,  0.03797607, ...,  0.0372763 ,\n",
+       "                        0.019474  , -0.02953582]],\n",
+       "              \n",
+       "                     [[-0.07365561, -0.06636481, -0.07385948, ...,  0.07757259,\n",
+       "                       -0.06353518, -0.0606568 ],\n",
+       "                      [-0.03435581,  0.04452751, -0.07223876, ..., -0.03295099,\n",
+       "                        0.05674427, -0.05030363],\n",
+       "                      [-0.08901997,  0.1159115 , -0.12224417, ...,  0.10312869,\n",
+       "                       -0.11139406, -0.10536477],\n",
+       "                      ...,\n",
+       "                      [ 0.07236408,  0.05375469, -0.03755553, ..., -0.057065  ,\n",
+       "                       -0.03634366, -0.04288524],\n",
+       "                      [-0.07081108, -0.09506831, -0.084653  , ..., -0.100339  ,\n",
+       "                       -0.07624822, -0.11304466],\n",
+       "                      [ 0.04854869, -0.06215874,  0.05231146, ...,  0.06709328,\n",
+       "                        0.04539494, -0.05279939]],\n",
+       "              \n",
+       "                     [[-0.04500421, -0.05344107, -0.04957467, ...,  0.05529626,\n",
+       "                       -0.05289495, -0.04973142],\n",
+       "                      [-0.05061682,  0.03426979, -0.03778715, ..., -0.0450584 ,\n",
+       "                        0.03818877, -0.0593758 ],\n",
+       "                      [-0.01262661,  0.01937299, -0.03704944, ...,  0.01548174,\n",
+       "                       -0.01348604, -0.00987264],\n",
+       "                      ...,\n",
+       "                      [-0.02322798, -0.01663445,  0.00602973, ...,  0.00691767,\n",
+       "                        0.01240894,  0.00756894],\n",
+       "                      [-0.03177977, -0.02034881, -0.02087708, ..., -0.0205056 ,\n",
+       "                       -0.0258639 , -0.02174775],\n",
+       "                      [-0.05961272,  0.05352452, -0.03566991, ..., -0.05334552,\n",
+       "                       -0.05424745,  0.05725127]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 8.82501435e-03, -1.81485433e-02, -8.17508716e-03, ...,\n",
+       "                        1.62277259e-02, -1.62000190e-02,  1.15035567e-02],\n",
+       "                      [ 2.51571126e-02, -3.34611163e-02,  1.41268084e-02, ...,\n",
+       "                       -3.19808088e-02,  3.82376499e-02, -3.10915485e-02],\n",
+       "                      [-6.06647506e-02,  1.32400207e-02, -8.13229196e-03, ...,\n",
+       "                        8.38858355e-03,  5.15362853e-03, -1.90225989e-03],\n",
+       "                      ...,\n",
+       "                      [-6.57490119e-02,  4.94322879e-03, -2.49304082e-02, ...,\n",
+       "                       -6.18668552e-03, -5.20401858e-02,  8.34745169e-02],\n",
+       "                      [-3.45638022e-02,  2.44357400e-02, -7.28670508e-03, ...,\n",
+       "                       -1.30881947e-02, -4.00486924e-02,  5.86403720e-03],\n",
+       "                      [-2.07821764e-02,  1.02347406e-02,  2.27580033e-02, ...,\n",
+       "                        1.92762651e-02, -3.48887183e-02, -1.13282437e-02]],\n",
+       "              \n",
+       "                     [[-1.76593959e-02, -1.85443147e-03,  4.83898818e-03, ...,\n",
+       "                       -9.99075454e-03,  3.24669713e-03, -4.43941802e-02],\n",
+       "                      [-5.83989313e-03, -6.99072406e-02,  1.35309575e-02, ...,\n",
+       "                        5.29645346e-02, -1.33149689e-02,  2.91646048e-02],\n",
+       "                      [ 4.29321118e-02, -6.51830807e-02,  4.40529967e-03, ...,\n",
+       "                        8.74261186e-02, -6.65134713e-02, -5.61560690e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.39351594e-02,  2.17647222e-03, -4.02587876e-02, ...,\n",
+       "                       -7.02112988e-02,  4.79908846e-02, -1.94322243e-02],\n",
+       "                      [-5.39308675e-02,  5.15811937e-03,  6.02166802e-02, ...,\n",
+       "                       -3.96643096e-04, -9.76049807e-03,  6.58039004e-03],\n",
+       "                      [-2.68425737e-02,  2.93749329e-02,  2.32460052e-02, ...,\n",
+       "                        2.81376857e-02,  1.71583111e-03,  4.04979177e-02]],\n",
+       "              \n",
+       "                     [[ 5.99081703e-02,  1.32145938e-02, -1.37950107e-02, ...,\n",
+       "                        1.58467181e-02,  2.21179631e-02, -3.10591478e-02],\n",
+       "                      [-1.04912473e-02, -3.39366794e-02,  4.61946102e-03, ...,\n",
+       "                       -2.24291924e-02, -1.43401511e-02,  1.38219623e-02],\n",
+       "                      [-1.01273423e-02,  1.48381582e-02, -4.33605276e-02, ...,\n",
+       "                        2.07444225e-02, -2.31453162e-02,  2.67610997e-02],\n",
+       "                      ...,\n",
+       "                      [-1.47811165e-02,  5.50152846e-02,  2.50921212e-02, ...,\n",
+       "                        4.82778735e-02,  1.85099486e-02, -7.27660023e-03],\n",
+       "                      [ 5.49992770e-02,  4.21824865e-02,  3.78878461e-03, ...,\n",
+       "                        1.14455875e-02,  4.07072529e-02,  4.62389104e-02],\n",
+       "                      [ 1.08908974e-02,  3.28515598e-05,  1.69772115e-02, ...,\n",
+       "                       -7.30852596e-03, -4.23545465e-02, -5.55225089e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-5.12910634e-03,  2.84914747e-02, -2.16970164e-02, ...,\n",
+       "                        1.09091457e-02, -2.34313798e-03,  7.27258846e-02],\n",
+       "                      [ 1.71632618e-02,  2.59486139e-02,  6.42891973e-02, ...,\n",
+       "                        8.23925342e-03, -1.25392321e-02, -4.27715927e-02],\n",
+       "                      [ 6.47857040e-02, -1.11361174e-02, -1.06392875e-02, ...,\n",
+       "                        4.77908319e-03,  6.14560097e-02,  4.98344228e-02],\n",
+       "                      ...,\n",
+       "                      [-1.60309952e-02,  2.19550282e-02, -1.62355490e-02, ...,\n",
+       "                       -1.53448032e-02,  2.50068977e-02, -1.37609430e-02],\n",
+       "                      [ 1.28832795e-02, -6.27421066e-02, -1.28271915e-02, ...,\n",
+       "                       -1.47589855e-02,  4.49947305e-02, -3.00725386e-03],\n",
+       "                      [ 4.96148095e-02, -2.32065357e-02,  8.94444250e-03, ...,\n",
+       "                        5.69443498e-03, -5.21871001e-02,  1.48959951e-02]],\n",
+       "              \n",
+       "                     [[-2.43751667e-02, -2.63015311e-02, -9.91073903e-04, ...,\n",
+       "                        5.19807525e-02, -3.73826288e-02, -2.58061383e-02],\n",
+       "                      [ 1.18823745e-03, -2.27057375e-02,  3.20175011e-03, ...,\n",
+       "                        9.23438463e-03, -7.12416694e-03, -5.15584322e-03],\n",
+       "                      [ 2.86849737e-02, -4.74519283e-02, -3.00998576e-02, ...,\n",
+       "                       -6.85654283e-02,  2.83939075e-02,  5.74304946e-02],\n",
+       "                      ...,\n",
+       "                      [ 9.82065499e-03, -2.29216348e-02,  1.66053511e-02, ...,\n",
+       "                        2.80485600e-02, -1.46161458e-02,  4.36083637e-02],\n",
+       "                      [ 1.72685310e-02, -2.72968132e-02,  4.18808758e-02, ...,\n",
+       "                        5.22726169e-03,  7.23373517e-02,  7.67718954e-03],\n",
+       "                      [-6.72384957e-03, -3.01094428e-02, -2.62498809e-03, ...,\n",
+       "                       -3.76314186e-02, -3.26726474e-02,  5.65500148e-02]],\n",
+       "              \n",
+       "                     [[ 3.71731184e-02, -2.73698959e-02, -5.21483691e-03, ...,\n",
+       "                       -2.77282223e-02,  3.19673494e-02, -1.73348412e-02],\n",
+       "                      [-2.62228353e-03,  1.15231602e-02, -1.73508134e-02, ...,\n",
+       "                        1.22574195e-02, -1.99704338e-02, -2.80665662e-02],\n",
+       "                      [ 1.84773095e-02, -6.69627450e-03, -3.08147967e-02, ...,\n",
+       "                       -3.48117203e-03,  1.08470665e-02,  9.13256314e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.78374979e-02, -6.28762180e-04, -2.29029153e-02, ...,\n",
+       "                        1.84090305e-02,  5.42607829e-02,  1.34296734e-02],\n",
+       "                      [-1.68974604e-02, -6.14933344e-03, -2.86198426e-02, ...,\n",
+       "                        8.02587252e-03,  1.66239664e-02,  2.09994633e-02],\n",
+       "                      [-7.23446459e-02,  3.69328330e-03,  6.00261725e-02, ...,\n",
+       "                        5.20618679e-03, -4.76943627e-02,  1.20505150e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.0154241 , -0.02136171,  0.00170994, ..., -0.04621289,\n",
+       "                        0.00897064,  0.0463121 ],\n",
+       "                      [-0.01717931,  0.01112157, -0.00710914, ...,  0.02496267,\n",
+       "                       -0.02168625, -0.04272152],\n",
+       "                      [ 0.01171657, -0.01287686,  0.01773049, ..., -0.01829099,\n",
+       "                        0.02109   , -0.01227092],\n",
+       "                      ...,\n",
+       "                      [-0.00849649,  0.03056782, -0.02829858, ...,  0.03839231,\n",
+       "                       -0.02428488, -0.01989117],\n",
+       "                      [ 0.03086454, -0.02407495, -0.00397067, ..., -0.02522042,\n",
+       "                        0.02546382,  0.04083524],\n",
+       "                      [ 0.0364135 , -0.01701799,  0.01753394, ..., -0.00421321,\n",
+       "                       -0.04532532,  0.00725917]],\n",
+       "              \n",
+       "                     [[-0.04019788, -0.04662199,  0.01315966, ...,  0.00322181,\n",
+       "                        0.05691342,  0.00376351],\n",
+       "                      [-0.03829328, -0.03602795,  0.02943544, ...,  0.03456193,\n",
+       "                        0.01103387,  0.00689813],\n",
+       "                      [ 0.01527943,  0.00088766, -0.02906663, ..., -0.0212947 ,\n",
+       "                        0.01063941, -0.0006206 ],\n",
+       "                      ...,\n",
+       "                      [-0.01832024, -0.00504218,  0.0385666 , ...,  0.00924117,\n",
+       "                       -0.02005848, -0.05142944],\n",
+       "                      [ 0.01042571, -0.00353254, -0.02857197, ...,  0.00440118,\n",
+       "                        0.00138613,  0.05051938],\n",
+       "                      [-0.01989467, -0.02315113, -0.01396444, ...,  0.01349834,\n",
+       "                       -0.03227997, -0.00757772]],\n",
+       "              \n",
+       "                     [[-0.03354385,  0.00472513, -0.00769798, ..., -0.00885564,\n",
+       "                        0.00580721,  0.00488673],\n",
+       "                      [ 0.00019211, -0.05568425,  0.03763834, ...,  0.01199987,\n",
+       "                        0.05336869,  0.00097181],\n",
+       "                      [ 0.01217039, -0.01985674, -0.02567776, ...,  0.01783625,\n",
+       "                        0.01716065, -0.0082099 ],\n",
+       "                      ...,\n",
+       "                      [-0.00518826,  0.01263819,  0.0485655 , ..., -0.00851737,\n",
+       "                       -0.00549572,  0.00633934],\n",
+       "                      [-0.00375161, -0.00891478, -0.04307966, ...,  0.01984667,\n",
+       "                       -0.02368173,  0.03147876],\n",
+       "                      [-0.06817975,  0.01210132, -0.0452972 , ...,  0.0040069 ,\n",
+       "                       -0.03429648, -0.00730973]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.02184511,  0.00679431, -0.03424827, ..., -0.0324767 ,\n",
+       "                       -0.03337568, -0.02098824],\n",
+       "                      [ 0.00526736,  0.01765759, -0.00150187, ...,  0.01563913,\n",
+       "                       -0.03712524, -0.04228941],\n",
+       "                      [ 0.00287891,  0.01557054,  0.03291737, ...,  0.0284601 ,\n",
+       "                       -0.03523739, -0.04916026],\n",
+       "                      ...,\n",
+       "                      [ 0.0726782 ,  0.01572193,  0.01749741, ..., -0.0704402 ,\n",
+       "                        0.02775858,  0.01285747],\n",
+       "                      [-0.05291403,  0.0512777 , -0.0159433 , ..., -0.02398926,\n",
+       "                       -0.02968781,  0.03079283],\n",
+       "                      [ 0.02697434, -0.05755222, -0.00289774, ...,  0.04506145,\n",
+       "                        0.004663  ,  0.02585066]],\n",
+       "              \n",
+       "                     [[-0.00757567, -0.01126878, -0.02642928, ..., -0.03176008,\n",
+       "                       -0.01499557,  0.04133096],\n",
+       "                      [-0.01980947,  0.01605221, -0.00517764, ...,  0.05347731,\n",
+       "                       -0.05864521, -0.02187834],\n",
+       "                      [-0.02866621,  0.06634904,  0.02014033, ...,  0.06080866,\n",
+       "                       -0.03863212,  0.00922127],\n",
+       "                      ...,\n",
+       "                      [ 0.00711835,  0.03246192, -0.02572215, ...,  0.01283702,\n",
+       "                        0.03169347, -0.01601929],\n",
+       "                      [-0.00215667,  0.0053453 , -0.01257901, ..., -0.02509351,\n",
+       "                       -0.00632794, -0.03124427],\n",
+       "                      [ 0.01211728,  0.00876393, -0.02041848, ..., -0.02124933,\n",
+       "                        0.01459261, -0.00189419]],\n",
+       "              \n",
+       "                     [[ 0.0405766 , -0.02296813, -0.02817863, ...,  0.01705168,\n",
+       "                       -0.01035196, -0.0244919 ],\n",
+       "                      [-0.02430458, -0.03143776,  0.00675427, ...,  0.02892111,\n",
+       "                       -0.03539396,  0.0230977 ],\n",
+       "                      [-0.04200551, -0.06123465, -0.05325764, ...,  0.05219106,\n",
+       "                       -0.03404982, -0.02000758],\n",
+       "                      ...,\n",
+       "                      [-0.00871374,  0.03963133, -0.01728675, ..., -0.08522114,\n",
+       "                        0.02565349, -0.04237581],\n",
+       "                      [-0.04688184,  0.00770911, -0.03921608, ..., -0.01087793,\n",
+       "                       -0.01175969,  0.04221232],\n",
+       "                      [-0.049819  , -0.0142605 ,  0.02277326, ...,  0.011447  ,\n",
+       "                        0.01668214,  0.02802994]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.40716648,  0.40576845,  0.39812824, ..., -0.40593734,\n",
+       "                        0.4078691 ,  0.40172875],\n",
+       "                      [ 0.38636172, -0.39008147,  0.3933755 , ...,  0.3955923 ,\n",
+       "                       -0.39074385,  0.3821965 ],\n",
+       "                      [ 0.39197102, -0.37414056,  0.38462132, ..., -0.3784486 ,\n",
+       "                        0.37449127,  0.3882801 ],\n",
+       "                      ...,\n",
+       "                      [-0.37871185, -0.38042605,  0.37447634, ...,  0.39369246,\n",
+       "                        0.36104998,  0.39049906],\n",
+       "                      [ 0.354122  ,  0.34075758,  0.34114447, ...,  0.33195916,\n",
+       "                        0.33932644,  0.33547738],\n",
+       "                      [-0.31507498,  0.33297104, -0.31998354, ..., -0.31302354,\n",
+       "                       -0.3355336 ,  0.3482901 ]],\n",
+       "              \n",
+       "                     [[ 0.3199213 ,  0.31403384,  0.32980934, ..., -0.34518468,\n",
+       "                        0.34063518,  0.33515075],\n",
+       "                      [ 0.31984913, -0.32108593,  0.32787293, ...,  0.33512378,\n",
+       "                       -0.3233186 ,  0.32992056],\n",
+       "                      [ 0.34243986, -0.3262791 ,  0.3039921 , ..., -0.3159503 ,\n",
+       "                        0.2925109 ,  0.3018358 ],\n",
+       "                      ...,\n",
+       "                      [-0.30164126, -0.3064998 ,  0.31280872, ...,  0.3158512 ,\n",
+       "                        0.31490564,  0.28778085],\n",
+       "                      [ 0.3283429 ,  0.3271414 ,  0.34931543, ...,  0.3033215 ,\n",
+       "                        0.33356848,  0.30767712],\n",
+       "                      [-0.2645189 ,  0.27556178, -0.26288036, ..., -0.24751008,\n",
+       "                       -0.2629664 ,  0.26435322]],\n",
+       "              \n",
+       "                     [[ 0.291087  ,  0.28982708,  0.28505024, ..., -0.2799747 ,\n",
+       "                        0.30001864,  0.2730273 ],\n",
+       "                      [ 0.26279756, -0.30112368,  0.29176798, ...,  0.2769896 ,\n",
+       "                       -0.29098928,  0.26730642],\n",
+       "                      [ 0.29452854, -0.29852226,  0.28637505, ..., -0.2947532 ,\n",
+       "                        0.2799103 ,  0.28863603],\n",
+       "                      ...,\n",
+       "                      [-0.2758026 , -0.26701498,  0.28453207, ...,  0.2795585 ,\n",
+       "                        0.27189273,  0.2507327 ],\n",
+       "                      [ 0.26728618,  0.26869908,  0.28794307, ...,  0.25227395,\n",
+       "                        0.2626167 ,  0.24173735],\n",
+       "                      [-0.23962979,  0.23545188, -0.2417576 , ..., -0.23906739,\n",
+       "                       -0.2343389 ,  0.23448807]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.00966584,  0.00096837, -0.02064038, ...,  0.01187884,\n",
+       "                       -0.01537259, -0.01701293],\n",
+       "                      [ 0.03537149, -0.02922641,  0.03284383, ...,  0.03100542,\n",
+       "                       -0.03081715,  0.00767527],\n",
+       "                      [-0.01367592,  0.0145938 , -0.01784269, ...,  0.02510932,\n",
+       "                       -0.02217818, -0.02652539],\n",
+       "                      ...,\n",
+       "                      [ 0.0027559 ,  0.01740869, -0.02969341, ..., -0.02402263,\n",
+       "                       -0.01643083, -0.00846119],\n",
+       "                      [-0.01906268, -0.00594951,  0.00351497, ..., -0.0045603 ,\n",
+       "                       -0.0026327 ,  0.00152499],\n",
+       "                      [-0.03041004,  0.02467696, -0.03267419, ..., -0.03226134,\n",
+       "                       -0.05339084,  0.04969552]],\n",
+       "              \n",
+       "                     [[ 0.00085549,  0.01244663,  0.01348209, ..., -0.00475915,\n",
+       "                        0.01295181,  0.01015476],\n",
+       "                      [ 0.01858704, -0.01860221,  0.00510187, ...,  0.02715912,\n",
+       "                       -0.01002228,  0.00621207],\n",
+       "                      [ 0.01918229,  0.00679111, -0.01300194, ..., -0.00634295,\n",
+       "                        0.00527138,  0.01043263],\n",
+       "                      ...,\n",
+       "                      [ 0.01595129,  0.00533315,  0.00275164, ..., -0.00058782,\n",
+       "                        0.01323795,  0.01409637],\n",
+       "                      [ 0.01785758, -0.00554279, -0.00474615, ..., -0.00798881,\n",
+       "                        0.0170826 , -0.00645886],\n",
+       "                      [ 0.00754235, -0.00442841,  0.00134518, ...,  0.00847297,\n",
+       "                        0.00621545,  0.00697028]],\n",
+       "              \n",
+       "                     [[ 0.01857087, -0.00343152, -0.00287611, ..., -0.00269689,\n",
+       "                        0.01138329,  0.01040243],\n",
+       "                      [-0.00155393, -0.01449388,  0.01091028, ...,  0.01365481,\n",
+       "                       -0.01510941,  0.00288129],\n",
+       "                      [ 0.00766992, -0.0148193 , -0.00887977, ..., -0.0128723 ,\n",
+       "                        0.01526615,  0.01719172],\n",
+       "                      ...,\n",
+       "                      [-0.03175353, -0.02803851,  0.02470523, ...,  0.02021142,\n",
+       "                        0.04161043,  0.02514303],\n",
+       "                      [ 0.00685295,  0.01218422,  0.02265075, ...,  0.01639694,\n",
+       "                        0.01010866,  0.02989644],\n",
+       "                      [-0.00554112, -0.00560751,  0.02870623, ...,  0.01522168,\n",
+       "                        0.00846885, -0.00057995]]], dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.41091743, -0.39703333, -0.3787934 ,  0.39795482,  0.40357172,\n",
+       "                      -0.40281782, -0.41370422, -0.4099608 ,  0.39989063,  0.4036594 ,\n",
+       "                      -0.3861448 , -0.40617776],\n",
+       "                     [-0.3994995 ,  0.39342538, -0.39707455, -0.38800818, -0.39609486,\n",
+       "                      -0.41212624, -0.3968884 , -0.3986293 ,  0.40980852, -0.40389988,\n",
+       "                       0.39750007, -0.39903447],\n",
+       "                     [-0.4281001 ,  0.42487082, -0.4144221 , -0.42607158,  0.4272242 ,\n",
+       "                       0.42541218, -0.42733738, -0.4232606 , -0.42850807,  0.41737798,\n",
+       "                      -0.42221972, -0.41712043],\n",
+       "                     [-0.07753266, -0.08413776, -0.10196105,  0.06933961, -0.09252501,\n",
+       "                       0.06681735,  0.07503854,  0.08201353, -0.07535568,  0.08145013,\n",
+       "                       0.0821331 ,  0.0635386 ],\n",
+       "                     [-0.37799704,  0.391212  ,  0.38612953,  0.38402295, -0.37795395,\n",
+       "                       0.39440656, -0.38802493,  0.39030483,  0.38115305, -0.40690652,\n",
+       "                       0.3750855 , -0.38593653],\n",
+       "                     [-0.09539425,  0.08643065,  0.072628  , -0.11199744, -0.12268147,\n",
+       "                      -0.11589758, -0.10698763, -0.10850427, -0.11080333, -0.00211119,\n",
+       "                       0.1037788 , -0.07428905],\n",
+       "                     [ 0.1193511 , -0.11804518,  0.11180906, -0.13487288, -0.23671259,\n",
+       "                      -0.16047317,  0.14368586,  0.05518241, -0.20675474, -0.04652565,\n",
+       "                       0.08266887,  0.10164189],\n",
+       "                     [-0.38380483,  0.38831097, -0.38232616,  0.38219568,  0.383948  ,\n",
+       "                       0.39362624,  0.3941855 , -0.39409056, -0.4030941 , -0.39971116,\n",
+       "                      -0.3981465 , -0.39881432],\n",
+       "                     [-0.3099356 , -0.31265897,  0.3193186 , -0.31829622,  0.32524088,\n",
+       "                      -0.31574857, -0.3168675 ,  0.30564085,  0.3218244 , -0.32326233,\n",
+       "                      -0.32111323,  0.3102204 ],\n",
+       "                     [-0.4212419 , -0.42001873, -0.41639826,  0.4133891 ,  0.42399213,\n",
+       "                      -0.40664238,  0.39729682, -0.41771716, -0.39906105,  0.40661538,\n",
+       "                      -0.41407037, -0.42145047],\n",
+       "                     [ 0.1267855 , -0.13117962,  0.17548735, -0.08526026, -0.13567473,\n",
+       "                       0.17726924, -0.05819062, -0.18689696, -0.17538345, -0.13423504,\n",
+       "                      -0.10781161, -0.10340425],\n",
+       "                     [-0.36864135, -0.35940742, -0.35618803, -0.35787508,  0.3575697 ,\n",
+       "                      -0.3574569 , -0.3538487 ,  0.3440898 ,  0.3565024 , -0.3692214 ,\n",
+       "                      -0.36304694,  0.37657958],\n",
+       "                     [ 0.3814958 , -0.38268888, -0.3919121 ,  0.3862683 , -0.3842662 ,\n",
+       "                       0.37994033, -0.37854648,  0.37619665,  0.38032112,  0.37548965,\n",
+       "                       0.3858773 , -0.38589865],\n",
+       "                     [ 0.36513856,  0.37049237, -0.38507372,  0.38773128,  0.3896943 ,\n",
+       "                       0.38529888, -0.38293883,  0.38670814, -0.37630308, -0.3852462 ,\n",
+       "                      -0.38168323, -0.36389014],\n",
+       "                     [-0.35706925, -0.3685492 , -0.36063698, -0.37230328,  0.3733398 ,\n",
+       "                      -0.36614853, -0.35917693,  0.37010276,  0.3742366 , -0.3623095 ,\n",
+       "                      -0.35129878, -0.36304602],\n",
+       "                     [ 0.26836962, -0.2784579 ,  0.27416602,  0.25678456,  0.27024218,\n",
+       "                      -0.25554377, -0.26284674,  0.25679955,  0.26513654,  0.256254  ,\n",
+       "                       0.27064562, -0.26481283]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.07500667, -0.08196688, -0.09829494,  0.08887871,  0.08919983,\n",
+       "                      -0.07611736, -0.09272641, -0.08778842,  0.0928647 ,  0.10149004,\n",
+       "                      -0.08891256, -0.07898947],\n",
+       "                     [-0.06834277,  0.07726638, -0.1019414 , -0.07936464, -0.07272576,\n",
+       "                      -0.09620529, -0.08719102, -0.09573347,  0.09898835, -0.07499579,\n",
+       "                       0.08524351, -0.10087925],\n",
+       "                     [ 0.00965925,  0.02427299, -0.00345065,  0.00730649, -0.02419891,\n",
+       "                       0.0209785 ,  0.00397648, -0.00956057, -0.01082321, -0.00767106,\n",
+       "                      -0.03438235, -0.00838221],\n",
+       "                     [-0.08530877, -0.04656003, -0.02000831,  0.09045035, -0.06728352,\n",
+       "                       0.08749081,  0.04640979,  0.07363399, -0.05163037,  0.08810713,\n",
+       "                       0.08202825,  0.10457424],\n",
+       "                     [-0.13564268,  0.14556517,  0.13971709,  0.13047284, -0.14067452,\n",
+       "                       0.1199011 , -0.11722513,  0.14309591,  0.1414378 , -0.13006493,\n",
+       "                       0.13093708, -0.13142247],\n",
+       "                     [-0.12929264,  0.14353621,  0.12598464, -0.08372255, -0.12269616,\n",
+       "                       0.12652738, -0.11513762, -0.11615187, -0.11035014, -0.1242417 ,\n",
+       "                      -0.10535961, -0.1262374 ],\n",
+       "                     [ 0.19117779, -0.13589805,  0.1352441 , -0.20463352,  0.08610608,\n",
+       "                      -0.1680213 ,  0.03736984,  0.15758243, -0.19908512, -0.1283229 ,\n",
+       "                       0.19029246,  0.19510667],\n",
+       "                     [-0.17444994,  0.18031645, -0.17730455,  0.19382964,  0.18292345,\n",
+       "                       0.18134804,  0.16650024, -0.16646932, -0.19650623, -0.16654335,\n",
+       "                      -0.20469052, -0.1899635 ],\n",
+       "                     [-0.08151194, -0.07332364,  0.05824054, -0.04681879,  0.08355903,\n",
+       "                      -0.06515411, -0.07147256,  0.05490229,  0.06638666, -0.05144802,\n",
+       "                      -0.05463661,  0.06513254],\n",
+       "                     [-0.07129031, -0.08209192, -0.07281575,  0.09461285,  0.08633045,\n",
+       "                      -0.07700296,  0.08106499, -0.06870469, -0.07736162,  0.07991602,\n",
+       "                      -0.08244774, -0.0813574 ],\n",
+       "                     [ 0.09168738, -0.14998332,  0.13085112, -0.1581326 , -0.16370456,\n",
+       "                       0.18202457, -0.15734208, -0.11138753, -0.14053495, -0.06981163,\n",
+       "                      -0.10164346, -0.17347746],\n",
+       "                     [-0.14228927, -0.15764919, -0.15668295, -0.17511848,  0.15683635,\n",
+       "                      -0.13297205, -0.13305731,  0.13137904,  0.14111319, -0.1575835 ,\n",
+       "                      -0.14276572,  0.13538426],\n",
+       "                     [ 0.02495499, -0.00631264, -0.00728494, -0.00878906,  0.01900311,\n",
+       "                       0.01417752, -0.01053768,  0.00572799,  0.01857267,  0.01430714,\n",
+       "                       0.01573708, -0.01450025],\n",
+       "                     [ 0.05821129,  0.04888328, -0.04329408,  0.04478474,  0.05833419,\n",
+       "                       0.04056882, -0.03235751,  0.04915995, -0.11113477, -0.04580541,\n",
+       "                      -0.03836249, -0.05638641],\n",
+       "                     [-0.1507673 , -0.15314901, -0.16472816, -0.14931056,  0.14615384,\n",
+       "                      -0.15893032, -0.17392617,  0.1446304 ,  0.15037927, -0.16776474,\n",
+       "                      -0.1605527 , -0.1688422 ],\n",
+       "                     [ 0.11285035, -0.11458515,  0.12181724,  0.11344904,  0.12769765,\n",
+       "                      -0.10807306, -0.10855875,  0.11906493,  0.10473388,  0.12991548,\n",
+       "                       0.11295414, -0.11610106]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 5.12855593e-03,  6.66835904e-03, -2.13512196e-03,\n",
+       "                        2.88987858e-03, -1.71656208e-03,  1.58670377e-02,\n",
+       "                       -8.73166951e-04,  4.74393461e-03, -6.72416575e-03,\n",
+       "                       -1.24936868e-02,  4.09317249e-03,  1.94797525e-03],\n",
+       "                      [-5.01133036e-03,  3.40523687e-03, -2.42055190e-04,\n",
+       "                       -1.12740491e-02, -5.46351587e-03,  9.71018616e-03,\n",
+       "                       -7.15655321e-03, -4.95742424e-05, -4.58561257e-03,\n",
+       "                        1.56312622e-03,  5.08005917e-03, -6.85218209e-03],\n",
+       "                      [ 1.85134544e-04,  7.57252425e-03, -2.41664107e-04,\n",
+       "                       -4.85895574e-03, -1.31634222e-02, -2.05327684e-04,\n",
+       "                        1.36911019e-03,  4.77854890e-04,  3.17802397e-03,\n",
+       "                        1.11254193e-02,  3.38124810e-03,  1.97687116e-03],\n",
+       "                      [-7.58354180e-03, -1.09749660e-03,  1.87258364e-03,\n",
+       "                       -4.39679855e-03,  1.35056898e-02,  9.37500736e-04,\n",
+       "                       -6.28093816e-03,  2.51053181e-03, -3.76467688e-05,\n",
+       "                       -9.07093473e-03, -6.08211616e-03, -6.79496210e-03],\n",
+       "                      [ 2.59081926e-03, -5.83294872e-03, -1.54970074e-02,\n",
+       "                       -6.76365569e-04, -1.25865443e-02, -5.09684067e-03,\n",
+       "                        7.90737278e-04, -4.44856618e-04,  4.82388365e-04,\n",
+       "                        1.59114788e-04,  3.07379081e-03, -8.17673746e-03],\n",
+       "                      [-4.96430276e-03, -5.67409629e-03, -6.89030997e-03,\n",
+       "                        1.39006656e-02,  2.89973710e-03,  6.23332476e-03,\n",
+       "                        1.70481708e-02, -4.40335087e-03,  3.05335340e-03,\n",
+       "                        5.17270155e-03, -7.58902961e-03, -8.06333311e-03],\n",
+       "                      [ 7.67198333e-04,  8.52348865e-04,  1.19951833e-02,\n",
+       "                        1.18750166e-02, -1.38447862e-02,  2.53724447e-03,\n",
+       "                       -4.56267176e-03, -1.47879776e-02,  3.49962851e-03,\n",
+       "                        8.95409938e-03, -1.22253262e-02,  5.87659096e-03],\n",
+       "                      [-6.02274993e-03,  1.07724117e-02, -1.92951858e-02,\n",
+       "                       -8.73806793e-03,  4.29179054e-03,  1.78715102e-02,\n",
+       "                        2.29572807e-03, -9.07022879e-03,  3.62627744e-03,\n",
+       "                       -1.49977184e-03,  8.06051947e-04,  7.52089405e-03],\n",
+       "                      [-8.56387801e-03, -5.52490819e-03, -6.07694313e-03,\n",
+       "                        7.73270428e-03,  3.36591294e-03,  1.33520318e-02,\n",
+       "                        5.79763716e-03, -6.06268551e-03, -1.30867837e-02,\n",
+       "                       -5.73166646e-03, -8.60142335e-03, -3.28946603e-03],\n",
+       "                      [ 7.07297726e-03,  1.46094672e-02, -3.17050470e-03,\n",
+       "                        4.19184798e-03, -1.07984338e-02,  1.11594601e-02,\n",
+       "                        7.47498544e-03,  6.07205974e-03,  5.49842697e-03,\n",
+       "                       -1.09560159e-03,  6.33720867e-03, -4.09576995e-03],\n",
+       "                      [ 5.19787800e-03, -8.40189401e-03, -6.77535636e-03,\n",
+       "                        6.13030186e-03, -1.95480511e-03, -5.28680300e-03,\n",
+       "                        1.52438283e-02,  6.90290378e-03,  4.62633790e-03,\n",
+       "                        4.37200768e-03, -2.73249880e-03, -4.53076279e-03],\n",
+       "                      [ 1.18563753e-02, -7.14349840e-03, -9.96101461e-03,\n",
+       "                       -9.97988041e-03, -1.24550415e-02,  8.09469167e-03,\n",
+       "                       -1.02353562e-02, -1.37576126e-02,  1.24030905e-02,\n",
+       "                        7.50589464e-03, -1.03093951e-03, -1.76431537e-02],\n",
+       "                      [-1.73272891e-03,  1.84512779e-03,  7.85177015e-03,\n",
+       "                        1.12089356e-02,  1.77292023e-02, -6.15275884e-03,\n",
+       "                       -4.45538433e-03, -8.67045391e-03, -1.32132098e-02,\n",
+       "                       -6.60764799e-03, -1.10811731e-02,  1.04815792e-02],\n",
+       "                      [ 1.46891258e-03,  3.11328622e-04, -5.73975593e-03,\n",
+       "                        1.69053266e-03,  1.96011234e-02,  9.96744260e-03,\n",
+       "                        1.91467740e-02, -1.96210332e-02,  3.37434234e-03,\n",
+       "                        1.21225948e-02, -1.80448294e-02,  1.41356736e-02],\n",
+       "                      [ 6.40557474e-03, -2.84241606e-03, -7.86876678e-03,\n",
+       "                        1.00508938e-02, -8.79120640e-03,  1.06285773e-02,\n",
+       "                       -1.45075447e-03,  1.80888642e-02, -3.24608118e-04,\n",
+       "                       -3.15192482e-03, -1.70563918e-03,  1.65305212e-02],\n",
+       "                      [ 1.10242600e-02, -3.45982355e-03,  1.32184075e-02,\n",
+       "                        8.34964495e-03, -7.07727717e-03, -1.78799573e-02,\n",
+       "                        6.51658466e-03, -1.71895437e-02,  3.61713610e-04,\n",
+       "                        1.52124725e-02, -1.45496083e-02,  1.51191978e-02]],\n",
+       "              \n",
+       "                     [[-1.11321360e-02, -1.63758211e-02, -2.79240031e-03,\n",
+       "                        1.23046013e-03,  3.06214509e-03, -1.97326150e-02,\n",
+       "                        4.76867566e-03,  2.46074027e-03, -1.80071164e-02,\n",
+       "                       -1.91356055e-02,  6.95738010e-03,  5.85925626e-03],\n",
+       "                      [ 6.20611990e-03, -3.06281913e-03,  1.18250530e-02,\n",
+       "                        9.03544668e-03,  1.59206858e-03, -4.93871700e-03,\n",
+       "                        1.57426335e-02, -1.17017841e-02, -1.05403112e-02,\n",
+       "                        1.77778918e-02, -5.04181953e-03,  1.92524102e-02],\n",
+       "                      [ 1.81273408e-02, -9.59337596e-03, -1.43720107e-02,\n",
+       "                        7.42731337e-03, -3.49794142e-03, -9.08243284e-03,\n",
+       "                       -1.26554919e-02, -3.92393861e-03,  1.62129849e-02,\n",
+       "                        7.93737359e-03, -1.39523549e-02, -1.71343330e-02],\n",
+       "                      [ 3.50867095e-03,  6.12853142e-03,  8.60079890e-04,\n",
+       "                        1.76838064e-03, -4.32498148e-03,  2.44022580e-03,\n",
+       "                       -4.61555785e-03,  9.83264670e-03, -6.55062916e-03,\n",
+       "                        5.09076891e-03, -1.98914651e-02, -5.13289962e-03],\n",
+       "                      [ 6.31234143e-03,  8.19841691e-04, -6.28800038e-03,\n",
+       "                        1.69438659e-03,  1.20353850e-03, -9.52797756e-03,\n",
+       "                       -1.89838856e-02,  1.42058097e-02, -4.50487685e-04,\n",
+       "                       -9.68337990e-04,  1.36484858e-02,  9.62200761e-03],\n",
+       "                      [ 8.21296405e-03,  8.77249148e-03,  2.57751485e-03,\n",
+       "                       -8.44736118e-03, -5.86496620e-03,  1.31070465e-02,\n",
+       "                        7.14863278e-03,  1.93205802e-03, -2.81021884e-03,\n",
+       "                        4.10962198e-03, -5.84370550e-03, -6.91601690e-06],\n",
+       "                      [ 1.39592336e-02, -5.59413061e-03, -5.74240135e-03,\n",
+       "                       -1.05634805e-04, -2.84640607e-03, -2.32673506e-03,\n",
+       "                        9.66272608e-04, -1.92520185e-03, -3.76285845e-03,\n",
+       "                       -3.61609296e-03,  4.17765416e-03,  1.25582563e-03],\n",
+       "                      [ 6.42140489e-03,  1.66140951e-03,  5.25343278e-03,\n",
+       "                        1.70482527e-02, -1.96832535e-03,  1.53658502e-02,\n",
+       "                       -2.14385771e-04, -7.87696522e-03,  6.28546812e-03,\n",
+       "                        1.02956034e-02,  7.89953396e-04, -7.44149368e-03],\n",
+       "                      [ 8.59444775e-03,  1.04654897e-02, -1.51982820e-02,\n",
+       "                       -4.85809706e-03, -1.21037243e-02, -8.17074534e-03,\n",
+       "                       -4.50816192e-03,  1.44476595e-03, -3.60425352e-03,\n",
+       "                       -4.66537400e-04,  3.09814094e-03, -6.37923460e-03],\n",
+       "                      [ 3.38344625e-03,  2.68637226e-03, -5.64868236e-03,\n",
+       "                        1.26324641e-03, -7.97617622e-03,  5.28610544e-04,\n",
+       "                       -4.31548152e-03, -6.69596763e-03, -1.75163466e-02,\n",
+       "                       -5.28662791e-03,  9.55967978e-03,  9.75693483e-03],\n",
+       "                      [ 1.30861154e-04,  6.43794285e-03,  1.71945419e-03,\n",
+       "                        1.61401704e-02, -1.84416526e-03, -1.29076012e-04,\n",
+       "                       -1.17621776e-02, -1.04355123e-02, -3.95264244e-03,\n",
+       "                       -7.07765389e-03,  4.39857272e-03, -8.02241918e-03],\n",
+       "                      [ 5.07055409e-03,  1.14876851e-02, -3.46192089e-03,\n",
+       "                        8.74145981e-03,  1.24274231e-02,  1.40672289e-02,\n",
+       "                       -1.83607882e-03,  1.69887617e-02,  1.91973560e-02,\n",
+       "                        1.04817152e-02, -2.31551332e-03,  2.96735088e-04],\n",
+       "                      [ 4.91836760e-03, -3.66516784e-03,  1.08165350e-02,\n",
+       "                        4.64872131e-03,  7.96078052e-03, -7.13564875e-03,\n",
+       "                        3.62745929e-03, -3.65488022e-03,  7.63897225e-03,\n",
+       "                       -1.11391963e-02, -1.00904759e-02,  1.55993924e-02],\n",
+       "                      [ 6.69008680e-03,  4.25420469e-03,  5.41883986e-03,\n",
+       "                       -1.11117018e-02, -5.68970514e-04, -3.17663234e-03,\n",
+       "                        5.20493975e-03, -8.93818680e-03, -3.28786694e-03,\n",
+       "                        7.41777522e-03,  7.49085750e-03, -1.82077661e-02],\n",
+       "                      [ 4.80132032e-04,  9.23585985e-03,  1.92046426e-02,\n",
+       "                        6.56831032e-03,  1.44117558e-02, -7.02518446e-04,\n",
+       "                       -5.83477318e-03, -6.96717296e-03, -5.12858434e-03,\n",
+       "                       -1.04593607e-02,  1.00317681e-02,  1.24781048e-02],\n",
+       "                      [-7.89445825e-03,  9.21254233e-03, -1.85428406e-04,\n",
+       "                       -3.90535640e-03, -4.18059342e-03,  8.93989578e-03,\n",
+       "                        3.41365172e-04,  1.69165637e-02,  4.05886769e-03,\n",
+       "                        9.71019268e-03, -1.22467382e-02,  1.77962682e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0064669 , 1.0818937 , 1.0529696 , 1.027011  , 1.072284  ,\n",
+       "                       1.0306487 , 0.9886776 , 0.98933357, 1.0080134 , 1.0092249 ,\n",
+       "                       1.0112736 , 1.0502064 , 0.99890935, 1.0473876 , 1.0330958 ,\n",
+       "                       1.0027466 , 1.0600146 , 1.012573  , 1.0349828 , 1.0181065 ,\n",
+       "                       1.062332  , 1.04784   , 0.9965813 , 0.9922533 , 1.0002353 ,\n",
+       "                       1.0056747 , 1.0608792 , 1.0256199 , 1.0487269 , 1.0022048 ,\n",
+       "                       1.0130595 , 1.009154  , 1.035093  , 1.0225183 , 1.0258716 ,\n",
+       "                       1.0255703 , 1.0336466 , 1.0641304 , 0.98713547, 1.005409  ,\n",
+       "                       1.037388  , 1.0334266 , 1.0115819 , 1.0451132 , 1.0127302 ,\n",
+       "                       1.026768  , 1.0033892 , 1.0719266 , 1.0142633 , 1.0064338 ,\n",
+       "                       1.0061831 , 1.082493  , 1.0613683 , 1.0165426 , 1.0044955 ,\n",
+       "                       1.0308001 , 1.0337422 , 1.0392753 , 1.0404853 , 1.061793  ,\n",
+       "                       1.0579301 , 1.0033402 , 0.9876382 , 0.9945765 , 1.0268649 ,\n",
+       "                       1.0322272 , 1.0105722 , 1.0436976 , 1.0327612 , 1.0217149 ,\n",
+       "                       1.0504173 , 0.9959419 , 1.0166682 , 1.0405486 , 1.0284251 ,\n",
+       "                       1.027506  , 1.0002648 , 1.0585668 , 1.0035429 , 1.0180401 ,\n",
+       "                       1.0099533 , 0.9838198 , 0.9946292 , 1.0244538 , 1.0183443 ,\n",
+       "                       1.0445744 , 1.0509833 , 1.0250286 , 1.0218376 , 0.985047  ,\n",
+       "                       1.0255886 , 1.0078777 , 1.0183403 , 1.0793016 , 1.0312704 ,\n",
+       "                       1.0454726 , 1.0745726 , 1.0386236 , 1.0486016 , 1.0218583 ,\n",
+       "                       1.0054005 , 1.0270458 , 1.0345457 , 1.0044142 , 1.0240374 ,\n",
+       "                       0.98509014, 1.0253175 , 1.0475533 , 1.0341904 , 1.0426164 ,\n",
+       "                       1.0431237 , 0.9964105 , 1.0359719 , 1.0343416 , 1.0255029 ,\n",
+       "                       0.9868464 , 1.0226315 , 1.0204879 , 1.0612466 , 1.0311997 ,\n",
+       "                       1.0315272 , 1.0149676 , 1.0266362 , 1.0051287 , 1.0160166 ,\n",
+       "                       1.0269036 , 0.9695572 , 1.0356328 , 1.0182139 , 0.99365634,\n",
+       "                       1.0248895 , 1.0467223 , 0.99832666, 1.0194186 , 1.0264868 ,\n",
+       "                       1.0457662 , 1.0010631 , 1.0781038 , 1.0366775 , 1.0192181 ,\n",
+       "                       1.0481138 , 1.0250039 , 1.0678422 , 1.0076646 , 1.0355699 ,\n",
+       "                       1.0159997 , 1.0457331 , 1.0366719 , 1.0515347 , 1.0401881 ,\n",
+       "                       1.0367059 , 1.0313339 , 1.004569  , 1.0335464 , 1.0153991 ,\n",
+       "                       0.99057716, 1.078844  , 0.99647516, 1.0546614 , 1.0700475 ,\n",
+       "                       1.0025264 , 1.0526556 , 1.0763507 , 0.9729892 , 0.992836  ,\n",
+       "                       1.0594417 , 1.0317165 , 1.0104476 , 1.0359826 , 1.0358601 ,\n",
+       "                       1.0337919 , 1.0279506 , 1.0117517 , 1.0357476 , 0.9967585 ,\n",
+       "                       1.0524963 , 1.0516102 , 1.035869  , 1.0262779 , 1.0246822 ,\n",
+       "                       0.99776876, 1.0228305 , 1.0323956 , 1.0822434 , 1.0439165 ,\n",
+       "                       1.004725  , 1.0423628 , 1.0363435 , 1.0164104 , 1.0294592 ,\n",
+       "                       1.0298296 , 1.0023874 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.03572559,  0.07052334,  0.04214054, -0.03088334, -0.05456677,\n",
+       "                        0.05488119, -0.00783285,  0.03388336, -0.04526844, -0.04859911,\n",
+       "                       -0.10143859,  0.02883948,  0.03983791, -0.06707199, -0.02181157,\n",
+       "                       -0.02965509, -0.07566714, -0.04532457, -0.06066715,  0.01502714,\n",
+       "                       -0.04262436,  0.03714302, -0.02645871,  0.06151082, -0.02454024,\n",
+       "                        0.02703209,  0.10376223, -0.04253267, -0.01060255,  0.03355165,\n",
+       "                       -0.02753572, -0.03638862,  0.04837547,  0.00728404,  0.02081808,\n",
+       "                        0.07089293,  0.0332068 , -0.04893075, -0.02254294, -0.05787472,\n",
+       "                        0.06663159,  0.01440133,  0.01816812,  0.04664446,  0.04485836,\n",
+       "                       -0.02159609, -0.05356405,  0.05446031, -0.04811412,  0.02603062,\n",
+       "                       -0.02455731,  0.10918348, -0.07446387,  0.02285322,  0.04729371,\n",
+       "                       -0.06004195, -0.06706948,  0.01052909,  0.05317412,  0.06986604,\n",
+       "                       -0.01449101,  0.02433792,  0.04743486, -0.03121328,  0.05618388,\n",
+       "                        0.04716328, -0.02363005, -0.01016761, -0.08208757,  0.05031472,\n",
+       "                        0.01894861,  0.02174053,  0.03442447,  0.05563618,  0.04318314,\n",
+       "                        0.02114048,  0.00857429,  0.07583337,  0.04995118, -0.01893166,\n",
+       "                       -0.05295784, -0.02783245,  0.0001985 ,  0.00630969, -0.04276912,\n",
+       "                        0.05514951, -0.07692855,  0.00204788,  0.02236083, -0.00397996,\n",
+       "                       -0.06290936,  0.0649584 , -0.01276455, -0.00273596,  0.07110768,\n",
+       "                       -0.02371853, -0.02431823, -0.07048386,  0.06340913, -0.05307363,\n",
+       "                        0.05174835,  0.05569284, -0.0364473 ,  0.03883031,  0.04631821,\n",
+       "                       -0.00825793, -0.03373799,  0.02248353, -0.05415484,  0.02037876,\n",
+       "                        0.07150011,  0.0309096 ,  0.01336379, -0.01085599,  0.02313981,\n",
+       "                       -0.02167892,  0.05665489, -0.02289949,  0.00883717, -0.02259299,\n",
+       "                        0.06036956, -0.01272535,  0.07566863, -0.01698468,  0.05676753,\n",
+       "                       -0.03596041,  0.0329265 ,  0.03933702,  0.06527503,  0.00900725,\n",
+       "                       -0.04639523, -0.04539404, -0.07513943,  0.03125531, -0.01435694,\n",
+       "                       -0.05000272, -0.03738052, -0.02647759, -0.014988  , -0.02063022,\n",
+       "                        0.05364346, -0.02731912,  0.08264866, -0.00714785, -0.03687573,\n",
+       "                       -0.00052383,  0.07184311, -0.03491021, -0.05168867, -0.05767809,\n",
+       "                        0.02498916, -0.01734494, -0.0632204 , -0.04646963,  0.00148338,\n",
+       "                       -0.04563425, -0.10136002,  0.01319181, -0.00625894, -0.00598573,\n",
+       "                        0.02463751,  0.06959893, -0.04617108,  0.00143085,  0.0269984 ,\n",
+       "                       -0.03616631,  0.00691976,  0.04255624,  0.05120771,  0.058086  ,\n",
+       "                        0.01832968,  0.03730016, -0.0344684 , -0.07080473, -0.0376507 ,\n",
+       "                        0.03034958,  0.01746695, -0.03656098, -0.0179161 , -0.04996467,\n",
+       "                        0.01110566, -0.0233655 ,  0.02121658,  0.05575675, -0.06921916,\n",
+       "                       -0.03693148, -0.05269073, -0.03594529, -0.09070019, -0.01931166,\n",
+       "                       -0.03299083,  0.06832818], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[ 0.00246047,  0.02135191,  0.00422186, ...,  0.03055698,\n",
+       "                        -0.00743342,  0.0240952 ],\n",
+       "                       [ 0.03629406, -0.02811501,  0.03010121, ...,  0.03152696,\n",
+       "                         0.01973201, -0.01870199],\n",
+       "                       [ 0.00980821, -0.02279299,  0.0098472 , ...,  0.00054256,\n",
+       "                         0.02296435, -0.02869965],\n",
+       "                       ...,\n",
+       "                       [ 0.02188366, -0.01548733,  0.00447983, ..., -0.00616977,\n",
+       "                         0.05187739,  0.0073489 ],\n",
+       "                       [-0.04720765,  0.01410661,  0.00694184, ...,  0.02556819,\n",
+       "                         0.00123452,  0.01772419],\n",
+       "                       [ 0.01116645,  0.03368069, -0.03413522, ..., -0.00785405,\n",
+       "                        -0.01171144, -0.00460553]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.19278969e-03,  6.04699366e-03, -1.53210023e-02, -5.74001996e-03,\n",
+       "                       -5.07295039e-03, -1.25789945e-03,  2.87603051e-03,  9.42181982e-03,\n",
+       "                       -1.67974513e-02,  7.50782108e-03, -1.95889324e-02,  2.44341679e-02,\n",
+       "                        5.60135767e-03,  1.71202272e-02,  9.53060202e-03,  7.83520751e-03,\n",
+       "                        8.63440428e-03, -1.15798693e-02,  5.61433285e-03, -3.61166149e-03,\n",
+       "                       -1.18884696e-02, -1.54542122e-02,  9.97095928e-03,  1.59891341e-02,\n",
+       "                        8.20877962e-03,  5.21820970e-04, -3.66602722e-03, -7.11401692e-03,\n",
+       "                        1.00262100e-02,  3.59447952e-03, -1.16654150e-02, -2.60293309e-04,\n",
+       "                       -3.63240088e-03,  8.41740519e-04,  1.73763093e-02,  1.99245643e-02,\n",
+       "                       -2.23525967e-02,  2.30515469e-02,  1.83117948e-02, -3.47422843e-04,\n",
+       "                        2.32729558e-02, -6.71033049e-03, -4.18689474e-03,  2.22610123e-02,\n",
+       "                        4.92201792e-03,  2.51501203e-02, -2.27775332e-03,  1.47669693e-03,\n",
+       "                        1.04547301e-02,  1.01519590e-02, -1.07629057e-02,  1.65723497e-03,\n",
+       "                        4.11617849e-03,  1.82028804e-02,  1.11566214e-02,  2.30182409e-02,\n",
+       "                       -1.18287141e-02, -2.38776673e-02,  1.21969208e-02,  1.05630159e-02,\n",
+       "                        2.07968522e-02,  5.43673383e-03, -1.74141694e-02, -9.51491389e-03,\n",
+       "                        1.83382593e-02,  1.04319034e-02,  1.55340992e-02,  2.80532939e-03,\n",
+       "                        1.44922861e-03,  1.04811527e-02, -1.18558845e-02,  1.77682750e-03,\n",
+       "                        9.54237767e-03,  1.12899886e-02,  1.25479940e-02,  7.22044287e-03,\n",
+       "                       -1.88595464e-03,  2.17754673e-02,  2.96804262e-03,  1.73219159e-05,\n",
+       "                        1.53760463e-02, -2.00917642e-03,  5.90350828e-04,  7.75832799e-04,\n",
+       "                       -2.07943972e-02, -1.05067808e-02,  1.45246461e-02,  6.77682692e-03,\n",
+       "                        7.37776747e-03, -1.27472728e-02, -2.36441777e-03, -2.67949072e-03,\n",
+       "                        1.64910068e-03,  3.50152217e-02,  4.40310268e-03,  2.08763946e-02,\n",
+       "                        7.27950642e-03, -7.69594964e-03, -2.67414115e-02, -1.70541629e-02,\n",
+       "                       -3.29811405e-03, -7.61077460e-03,  6.73809648e-03,  4.98033408e-03,\n",
+       "                        1.20822787e-02, -1.04412539e-02,  1.53507674e-02,  1.40117342e-02,\n",
+       "                        2.13045012e-02, -1.23152873e-02,  1.39537482e-02,  2.06317306e-02,\n",
+       "                        2.59761652e-03, -1.59729889e-03, -4.10755444e-03,  7.65158795e-03,\n",
+       "                        1.71183832e-02, -7.31218280e-03,  9.15572792e-03, -1.86188314e-02,\n",
+       "                       -6.07075822e-03,  1.29571529e-02,  2.38646772e-02, -1.95070938e-03,\n",
+       "                        6.93639880e-03, -5.59475506e-03,  3.23603139e-03, -2.66886968e-03,\n",
+       "                        2.45580710e-02, -5.12463041e-03,  1.42249130e-02, -1.50085622e-02,\n",
+       "                       -6.45479606e-03,  1.91599261e-02, -1.44467328e-03,  1.05794268e-02,\n",
+       "                       -1.49858743e-02,  4.88797855e-03, -7.21035758e-03, -2.56358199e-02,\n",
+       "                        4.19023709e-04,  6.27954723e-03,  9.93503164e-03,  2.10088044e-02,\n",
+       "                        1.74473505e-02,  1.32214022e-03,  1.55853359e-02, -1.53631857e-02,\n",
+       "                        2.37401165e-02, -1.13086021e-02,  2.39201710e-02, -1.13888904e-02,\n",
+       "                        4.89860214e-03, -6.11251965e-03,  9.56667680e-03,  1.72541924e-02,\n",
+       "                       -1.42011708e-02,  1.03781205e-02, -8.26389762e-04,  7.26381736e-03,\n",
+       "                        1.84223317e-02, -1.47882728e-02,  6.29240228e-03,  7.76841957e-03,\n",
+       "                        3.11127747e-03, -3.21686640e-03, -8.16328917e-03, -6.70107035e-03,\n",
+       "                        2.28692014e-02, -9.22542904e-03,  7.99279381e-03, -1.35028204e-02,\n",
+       "                        7.43754441e-03,  2.49574892e-02,  1.76944025e-03,  1.11684399e-02,\n",
+       "                        1.89606808e-02, -1.34006366e-02, -5.20619750e-03, -5.28418412e-03,\n",
+       "                        9.56782699e-03,  4.95272782e-03,  1.10703101e-03, -2.59877386e-04,\n",
+       "                        1.15246791e-02,  1.81984790e-02,  1.20165003e-02,  1.49773303e-02,\n",
+       "                        6.65980019e-03, -5.50915161e-03,  2.13161446e-02,  1.30873369e-02,\n",
+       "                       -1.28262872e-02,  6.39692508e-03,  5.82733052e-03, -1.44022256e-02,\n",
+       "                        1.71116181e-02,  7.09277578e-03, -2.50236411e-02,  4.06866567e-03,\n",
+       "                        6.94010174e-03,  3.72852175e-03,  3.72777274e-03, -9.53891664e-04,\n",
+       "                        3.03575420e-03, -9.08128731e-03,  2.35900469e-03,  2.54409551e-03,\n",
+       "                        7.85557181e-03,  5.72764222e-03, -1.13477726e-02, -1.97790004e-03,\n",
+       "                       -2.02169698e-02,  1.66139123e-03,  4.42339433e-03,  1.04274824e-02,\n",
+       "                       -4.70428728e-03,  8.31646903e-04, -1.91115867e-03, -1.62475631e-02,\n",
+       "                        1.58297375e-03, -1.50254276e-02,  2.68275064e-04,  1.89033300e-02,\n",
+       "                       -1.06294956e-02,  9.86085087e-03,  9.37867071e-03,  6.53037149e-03,\n",
+       "                        2.60478165e-03, -2.57267803e-02,  2.15005018e-02, -3.40055348e-03,\n",
+       "                       -1.39013445e-02,  2.95173115e-04, -2.36411467e-02,  1.80282339e-04,\n",
+       "                        5.52599877e-03, -8.56333785e-03,  1.01212400e-03,  3.25073600e-02,\n",
+       "                        5.58349118e-03, -5.01703657e-03, -2.30139419e-02, -7.50387181e-03,\n",
+       "                        1.00269197e-02,  1.65834427e-02, -1.76343247e-02,  8.61031283e-03,\n",
+       "                       -2.24650232e-03,  1.96501296e-02,  1.35511039e-02, -1.72223039e-02,\n",
+       "                        3.42590734e-03,  1.64557416e-02, -9.82559938e-03, -5.14447736e-03,\n",
+       "                        2.44647590e-03,  5.59220975e-03,  2.79288404e-02, -3.72134103e-03,\n",
+       "                       -6.33670157e-03,  1.45124113e-02, -2.62766276e-02,  1.49100469e-02,\n",
+       "                        1.68065038e-02,  7.24705495e-03,  2.06217752e-03, -1.12682860e-02,\n",
+       "                        3.12566161e-02,  1.80585291e-02,  5.93927270e-03,  2.72701611e-03,\n",
+       "                        9.70310532e-03,  1.76505558e-02,  1.56975463e-02,  1.30839017e-03,\n",
+       "                       -1.36760985e-02, -5.82931610e-03,  2.37178952e-02,  6.36408245e-03,\n",
+       "                       -8.30591749e-03, -2.83155544e-03, -1.72732286e-02,  2.06037387e-02,\n",
+       "                       -2.75142677e-03,  8.32369551e-03, -1.00701684e-02, -1.60630234e-02,\n",
+       "                        2.36141868e-02, -3.94094363e-03,  2.52855098e-05, -2.81257443e-02,\n",
+       "                        1.24347163e-02,  1.94560941e-02,  2.68202014e-02,  2.89945491e-02,\n",
+       "                        1.17353071e-02, -1.23171899e-02, -1.30154043e-02, -3.62283492e-04,\n",
+       "                        7.18672853e-03,  1.50140692e-02, -3.94091476e-03,  2.59088795e-03,\n",
+       "                        7.08716968e-03, -4.78606299e-03,  1.54908653e-02, -5.57252322e-04,\n",
+       "                        9.48684104e-03,  1.97996795e-02,  1.78096313e-02, -6.88620750e-03,\n",
+       "                        2.58465484e-02,  5.94391953e-03,  2.34638923e-03,  2.98976302e-02,\n",
+       "                        3.56731825e-02, -1.27387010e-02,  1.20613696e-02, -1.44198937e-02,\n",
+       "                       -1.67872403e-02, -5.48574375e-04,  7.29635777e-03, -8.28532875e-03,\n",
+       "                        2.83680565e-04,  2.56444197e-02,  1.48984604e-02, -3.43430380e-04,\n",
+       "                        4.41812212e-03,  1.86183006e-02,  7.07666436e-03,  3.75143392e-03,\n",
+       "                        9.68923140e-03,  2.76730787e-02, -3.37407552e-03,  2.40801903e-03,\n",
+       "                       -1.28472596e-03, -5.40855620e-03, -7.14346534e-04,  1.01167867e-02,\n",
+       "                        3.44231841e-03,  1.92425400e-02, -8.41472019e-03, -1.02022616e-02,\n",
+       "                       -1.02061201e-02,  9.05947702e-04, -6.14283001e-03,  4.40994423e-04,\n",
+       "                       -1.76024865e-02, -1.39886541e-02,  1.95986740e-02,  2.05307566e-02,\n",
+       "                        1.60966927e-04, -1.63520519e-02,  1.70697886e-02,  2.00404339e-02,\n",
+       "                        2.18718946e-02,  2.70666610e-02,  2.73487810e-02, -1.10565051e-02,\n",
+       "                        1.62903816e-02,  1.98205058e-02,  5.71643002e-03, -1.96284540e-02,\n",
+       "                        5.47597371e-03,  1.15929283e-02, -1.57948732e-02,  1.97605533e-03,\n",
+       "                        1.65477523e-03, -5.24721621e-03, -1.28862308e-02,  2.91175768e-02,\n",
+       "                        3.97475623e-03, -8.68490525e-03,  8.40478390e-03, -8.53092875e-03,\n",
+       "                        8.91437568e-03, -8.20621941e-03, -1.69815514e-02, -1.56296149e-03,\n",
+       "                       -1.94094721e-02,  9.14666336e-03, -4.71888436e-03,  5.96455624e-03,\n",
+       "                       -7.23899808e-03, -1.62013900e-02, -8.91631935e-03, -9.16333310e-03,\n",
+       "                        1.36582786e-02, -2.81301048e-02,  1.40030524e-02,  2.21321303e-02,\n",
+       "                        1.70738269e-02, -1.34165427e-02,  9.66804288e-03, -1.41236221e-03,\n",
+       "                       -1.29311462e-03, -1.82988774e-02,  8.06615595e-03,  1.63736492e-02,\n",
+       "                        7.57436035e-03, -1.23931859e-02,  2.11250260e-02,  8.82964674e-03,\n",
+       "                        5.36705414e-03,  9.78771411e-03,  2.97650024e-02,  1.36999404e-02,\n",
+       "                        2.32320745e-02,  1.80442433e-03,  1.46890003e-02,  7.45175406e-03,\n",
+       "                       -2.40189917e-02,  2.32096948e-02,  1.58773493e-02, -1.30231204e-02,\n",
+       "                        1.70866325e-02,  1.14606908e-02, -7.90068973e-03, -3.56196106e-04,\n",
+       "                       -6.42792962e-04,  2.17272229e-02,  7.65779288e-03,  1.05101373e-02,\n",
+       "                        3.35401227e-03,  1.21193146e-02, -7.54443510e-03,  1.46741355e-02,\n",
+       "                        1.48964776e-02,  7.43449712e-03,  2.57233228e-03,  1.05196319e-03,\n",
+       "                        1.60870235e-02, -1.44143356e-04, -7.70768523e-03, -4.54242993e-03,\n",
+       "                        2.23990041e-03,  1.91516653e-02,  1.22645944e-02, -9.79530253e-03,\n",
+       "                        5.54556865e-03,  1.39172201e-03,  1.02477763e-02,  1.17938900e-02,\n",
+       "                        1.09906727e-02, -4.91106976e-03, -2.18414841e-03, -8.83982331e-03,\n",
+       "                        2.20653228e-02,  2.03952175e-02,  1.98832899e-02, -1.55128445e-03,\n",
+       "                       -3.24987195e-04, -2.12468579e-03,  7.74660194e-03, -9.87132732e-03,\n",
+       "                        1.77269569e-03, -1.75155178e-02,  2.02640314e-02,  1.94381177e-02,\n",
+       "                       -6.83493027e-03,  5.30726416e-03,  2.38340460e-02,  8.98609124e-03,\n",
+       "                        4.55694133e-03,  1.06510837e-02,  1.39252860e-02, -6.70732552e-05,\n",
+       "                        1.23598548e-02, -1.31418537e-02,  7.97190145e-03, -3.49693745e-03,\n",
+       "                        2.01660190e-02,  7.97026139e-03, -2.54692102e-04,  1.66945271e-02,\n",
+       "                        8.12765770e-03,  4.78525134e-03,  1.07379351e-02, -1.70712039e-04,\n",
+       "                       -4.91422415e-03, -1.46261165e-02,  8.60630348e-03,  3.46043613e-03,\n",
+       "                        1.63556151e-02, -2.01419517e-02,  7.34371971e-03,  2.09604669e-02,\n",
+       "                       -4.91989404e-03,  2.00477522e-02,  8.49883631e-03, -7.02486327e-03,\n",
+       "                        1.57896075e-02,  6.71546627e-03,  8.28711130e-03,  1.12022590e-02,\n",
+       "                        9.92548559e-03,  1.21114654e-02,  1.82388239e-02, -1.45878103e-02,\n",
+       "                       -4.14639711e-03,  1.76131856e-02, -9.23024770e-03, -8.87810253e-03,\n",
+       "                       -1.08306920e-02,  1.42421983e-02,  5.19373035e-03, -2.37513538e-02,\n",
+       "                        2.26361621e-02,  9.16093995e-04,  2.00996231e-02, -6.26094127e-03,\n",
+       "                       -1.59570146e-02, -8.83307424e-04, -2.30691601e-02,  1.14731037e-03,\n",
+       "                       -2.26202514e-02, -7.53147062e-03,  1.61701851e-02, -5.77796076e-04,\n",
+       "                       -2.96659092e-03, -4.15878883e-03, -3.92619381e-03,  1.09928856e-02,\n",
+       "                       -6.64000632e-03, -1.43695585e-02,  1.63874105e-02,  5.98971080e-03,\n",
+       "                        3.20064626e-03,  4.41091228e-03, -1.66858118e-02,  2.23180708e-02,\n",
+       "                        1.21295657e-02, -1.12690898e-02, -4.08188906e-03,  6.03400357e-03,\n",
+       "                        9.41000879e-03, -2.47898344e-02,  3.84332053e-03, -2.90675904e-03,\n",
+       "                        1.75656620e-02,  1.82535767e-03,  1.69527456e-02,  1.70554612e-02,\n",
+       "                        1.58965960e-02,  9.59413592e-03, -1.36477742e-02, -6.80452771e-03,\n",
+       "                        1.23747848e-02,  1.55602759e-02, -9.33919381e-03, -4.79441776e-04,\n",
+       "                       -2.74120253e-02, -1.70317907e-02,  7.85582885e-03, -2.69122683e-02,\n",
+       "                        1.54303005e-02, -1.24900360e-02, -1.82244158e-03, -5.80713968e-04,\n",
+       "                        2.50871126e-02,  1.17920628e-02,  8.81043635e-03, -1.84596833e-02,\n",
+       "                        1.06913671e-02,  8.91262107e-03,  1.51733793e-02,  1.93881411e-02,\n",
+       "                       -1.48909241e-02,  1.87424663e-02, -7.78475078e-03,  1.11052729e-02,\n",
+       "                        9.85566806e-03,  2.79320199e-02,  8.94294027e-03,  7.57371774e-03,\n",
+       "                       -5.01180999e-03,  1.65897086e-02,  7.87321478e-03, -9.50829685e-03,\n",
+       "                        1.91696696e-02,  1.10584788e-03,  5.57772722e-03,  9.22551844e-03,\n",
+       "                       -1.42724728e-02,  2.05761101e-03,  9.26569104e-03,  9.43784509e-03,\n",
+       "                        5.86663932e-03,  1.16787646e-02,  1.64901260e-02,  1.16064958e-02,\n",
+       "                        1.27171073e-02,  6.72639161e-03, -5.28149540e-04,  4.67793457e-03,\n",
+       "                       -1.56461000e-02,  2.28382964e-02,  6.34732191e-04, -7.66546326e-03,\n",
+       "                       -1.12781981e-02,  1.42416246e-02,  3.58064263e-03, -1.62186753e-03,\n",
+       "                        1.68378465e-02, -8.02798569e-03,  1.53726414e-02, -6.99624233e-03,\n",
+       "                        1.32351890e-02,  1.45837171e-02,  1.30574675e-02,  2.08209585e-02,\n",
+       "                        1.27933007e-02,  2.81269122e-02,  1.33745640e-03, -2.24389415e-02,\n",
+       "                        1.87091082e-02,  7.40896026e-03, -2.13304218e-02, -1.05568739e-02,\n",
+       "                        1.41326403e-02, -1.28459418e-03,  1.25366366e-02, -7.02124741e-03,\n",
+       "                       -7.53937569e-03, -1.25048766e-02, -4.38260660e-03,  7.50464620e-03,\n",
+       "                        1.97301023e-02, -8.34845100e-03, -1.63942091e-02,  2.17455458e-02,\n",
+       "                       -6.29904168e-03, -7.13661546e-03, -1.75990500e-02,  1.82209853e-02,\n",
+       "                        2.12942436e-02, -2.48322147e-03,  1.89036131e-02, -1.94397254e-03,\n",
+       "                        1.41878463e-02,  9.81104188e-03,  1.42406281e-02,  1.03803305e-02,\n",
+       "                        2.19183583e-02,  2.00765505e-02,  9.17724986e-03,  1.92660093e-02,\n",
+       "                       -2.72041163e-03,  6.12203311e-03, -1.05543146e-02, -1.29299359e-02,\n",
+       "                       -1.11266859e-02, -9.32210498e-03, -9.91335791e-03, -2.17839284e-03,\n",
+       "                        1.11390892e-02,  1.00555513e-02, -1.15690997e-03,  6.40681246e-03,\n",
+       "                        4.61202953e-03,  6.93128398e-03, -1.09066963e-02, -2.91597773e-03,\n",
+       "                        1.04544824e-03,  6.25762343e-03,  1.79513339e-02,  3.48348217e-03,\n",
+       "                        2.39446368e-02, -5.20698773e-03,  8.38620495e-03,  5.52680856e-03,\n",
+       "                       -4.84721502e-03,  1.62413325e-02, -7.01867836e-03,  1.65924840e-02,\n",
+       "                        1.36338379e-02,  1.48431053e-02,  1.48721933e-02,  8.85732123e-04,\n",
+       "                        8.52295291e-03, -9.02669318e-03,  3.02526504e-02, -2.07700883e-03,\n",
+       "                        4.68547875e-03,  3.54835507e-03,  2.13338230e-02,  1.50220273e-02,\n",
+       "                       -6.02535671e-03,  1.97854899e-02, -2.00620033e-02, -8.88607185e-03,\n",
+       "                        6.25809189e-04,  2.49126870e-02, -9.88007989e-03, -1.90524850e-03,\n",
+       "                       -2.11622585e-02,  1.24527710e-02,  9.76101309e-03, -3.18096322e-03,\n",
+       "                        1.21807382e-02, -2.09994894e-02, -3.40486411e-03, -3.80637310e-03,\n",
+       "                       -1.00017572e-02,  3.26828659e-03, -1.94694996e-02,  3.76621522e-02,\n",
+       "                       -2.40518022e-02,  6.02365006e-03,  2.09805253e-03, -9.52404691e-04,\n",
+       "                       -1.39954900e-02,  2.41800435e-02,  2.86736488e-02,  1.79633386e-02,\n",
+       "                       -5.79016749e-03,  1.41466688e-02,  7.21023418e-03,  2.89126094e-02,\n",
+       "                        3.13231573e-02,  1.63700022e-02,  1.45204756e-02, -1.04396110e-02,\n",
+       "                       -4.50925250e-03,  8.29984993e-03,  8.99901643e-05, -8.01164564e-03,\n",
+       "                        1.80391222e-02,  1.98991168e-02, -2.79113138e-03,  2.09845658e-02,\n",
+       "                        9.41892527e-03,  1.45994853e-02, -1.45313693e-02,  8.77158064e-03,\n",
+       "                       -2.70679742e-02,  1.80923715e-02, -9.45959799e-03,  4.77605872e-03,\n",
+       "                        2.60386616e-02,  1.14202555e-02,  6.31397264e-03,  2.62519787e-03,\n",
+       "                        1.45881884e-02,  7.31406407e-03,  8.89989920e-03,  2.02203915e-02,\n",
+       "                       -7.16251787e-03,  2.41501890e-02,  3.22476029e-03,  2.06751749e-02,\n",
+       "                        4.73092962e-03, -8.30835383e-03, -1.96678955e-02, -4.87877056e-03,\n",
+       "                        1.03124082e-02,  1.02846436e-02,  1.12687731e-02, -1.97079242e-03,\n",
+       "                        1.75375808e-02, -1.57790724e-02,  5.71746798e-03, -6.58601616e-03,\n",
+       "                       -6.35589473e-03,  9.28526465e-03,  1.34158628e-02,  2.18920186e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 1.1502154e-02,  3.0195275e-02,  3.4433580e-03, ...,\n",
+       "                        -4.3353168e-03,  1.9910611e-02, -1.3856224e-02],\n",
+       "                       [ 5.6839739e-03,  2.9456308e-02,  2.2852859e-02, ...,\n",
+       "                        -1.9397736e-02,  2.8950260e-03, -2.1839043e-02],\n",
+       "                       [ 1.5003541e-03, -6.0947877e-03,  1.7701474e-03, ...,\n",
+       "                        -2.2228636e-02, -2.5397372e-02,  2.7237378e-02],\n",
+       "                       ...,\n",
+       "                       [-8.5829953e-03,  1.7714988e-03, -3.8301013e-02, ...,\n",
+       "                         1.3236449e-02,  1.2210120e-02, -1.1586262e-02],\n",
+       "                       [-3.3372819e-02,  1.9075049e-02,  1.4666800e-02, ...,\n",
+       "                         8.2554603e-03,  3.6509219e-03, -1.4935212e-02],\n",
+       "                       [ 2.1129467e-03, -8.5969763e-03, -2.0772312e-02, ...,\n",
+       "                        -1.2316188e-05, -3.8625787e-03, -2.1612834e-02]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01241958,  0.02853034,  0.00683807, -0.00909434, -0.01633247,\n",
+       "                        0.02183856, -0.00105524,  0.00936508, -0.01849056, -0.0228079 ,\n",
+       "                       -0.03805307,  0.01537926,  0.0232118 , -0.01152004, -0.00144519,\n",
+       "                        0.01462283, -0.02123057, -0.00374562, -0.01543367,  0.01980601,\n",
+       "                       -0.01125354,  0.01716148, -0.00419925,  0.01768438, -0.00653506,\n",
+       "                        0.02330243,  0.02034115,  0.00540797, -0.00328603,  0.00323312,\n",
+       "                       -0.006646  , -0.00093303, -0.00532696,  0.00672833,  0.00015488,\n",
+       "                        0.02395755, -0.00312466, -0.00607315, -0.01638863, -0.02672903,\n",
+       "                        0.00969766, -0.00010234,  0.01260834,  0.02663585,  0.01452464,\n",
+       "                       -0.00959755, -0.02336573,  0.00672154, -0.01493897,  0.01388968,\n",
+       "                       -0.00423932,  0.0323926 , -0.02120744,  0.01426661,  0.00509344,\n",
+       "                       -0.02652669, -0.02495514, -0.00018103,  0.02344626,  0.00848018,\n",
+       "                       -0.00409297,  0.01169506,  0.01301485, -0.01236273,  0.00858005,\n",
+       "                        0.01046913, -0.00787587,  0.01130183, -0.01470941,  0.01809805,\n",
+       "                        0.0143772 ,  0.01087649,  0.00210273,  0.00751127,  0.01507526,\n",
+       "                        0.00683949, -0.00109522,  0.03121684, -0.01275832, -0.00581627,\n",
+       "                       -0.01427171,  0.01064673, -0.00053186,  0.00614763, -0.01663968,\n",
+       "                        0.01788151, -0.03325289, -0.00285536, -0.00051261, -0.00639026,\n",
+       "                       -0.01863781,  0.01362973,  0.00018454, -0.00389818,  0.03368738,\n",
+       "                        0.01071555, -0.01569902, -0.01870691,  0.02316205, -0.00841834,\n",
+       "                        0.01257211,  0.01517834, -0.01216789,  0.00544479,  0.00686449,\n",
+       "                       -0.00698842, -0.01006403,  0.00086243, -0.02365486,  0.00670945,\n",
+       "                        0.0390068 ,  0.00385976,  0.00107472, -0.01530283, -0.00273055,\n",
+       "                       -0.00875664,  0.0135286 , -0.00480531,  0.01045919, -0.01012978,\n",
+       "                        0.02552531, -0.01144321,  0.01719082, -0.01037663,  0.00549512,\n",
+       "                       -0.00379107,  0.01855377,  0.01752721,  0.01856578, -0.00760566,\n",
+       "                       -0.01135699, -0.00992793, -0.02295038,  0.00824989,  0.00599996,\n",
+       "                       -0.02123486, -0.00773912, -0.00481055, -0.01155985,  0.00741208,\n",
+       "                        0.01413365, -0.00590017,  0.03520844,  0.00596596, -0.01012237,\n",
+       "                       -0.00325622,  0.01000111, -0.00672712,  0.00253006, -0.02350044,\n",
+       "                       -0.00175385, -0.00105427, -0.02612934, -0.00763389,  0.00502535,\n",
+       "                       -0.00788742, -0.03994568, -0.00025992, -0.00857767, -0.00876805,\n",
+       "                        0.00468722,  0.03416699, -0.01038047, -0.00378856,  0.00473238,\n",
+       "                       -0.00725147, -0.01040328,  0.02098466,  0.0140253 ,  0.01751439,\n",
+       "                        0.00842675,  0.01253181, -0.00643643, -0.0167303 ,  0.0021241 ,\n",
+       "                        0.00140574,  0.00986787, -0.01171913, -0.01513289, -0.00678355,\n",
+       "                        0.01158554, -0.01056996, -0.0075354 ,  0.017674  , -0.02223495,\n",
+       "                       -0.01389522, -0.01531147, -0.00671497, -0.02587223, -0.00409507,\n",
+       "                       -0.00604762,  0.01518861], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9852155 , 1.0364006 , 1.027549  , 0.98277205, 1.0121615 ,\n",
+       "                       1.0004774 , 0.979088  , 0.98762256, 0.9822612 , 1.0024757 ,\n",
+       "                       1.0178878 , 0.9982759 , 0.9857063 , 1.0386217 , 1.0258405 ,\n",
+       "                       1.0109771 , 1.0249064 , 1.010365  , 1.0099815 , 0.9645096 ,\n",
+       "                       1.0084565 , 1.0489866 , 0.981453  , 0.9962389 , 0.9827237 ,\n",
+       "                       1.0107062 , 1.0454112 , 0.9842302 , 0.9949914 , 0.9944677 ,\n",
+       "                       0.9969635 , 0.9898968 , 0.9921109 , 1.0128655 , 1.0332738 ,\n",
+       "                       0.9949823 , 1.0049902 , 1.041102  , 0.96877766, 0.9986009 ,\n",
+       "                       1.0198799 , 0.9955294 , 1.0086453 , 1.0235807 , 0.9956834 ,\n",
+       "                       1.0039417 , 1.0140501 , 1.0132045 , 0.9853706 , 0.9748088 ,\n",
+       "                       1.0001203 , 1.0847405 , 1.0447997 , 0.9901248 , 1.0031246 ,\n",
+       "                       1.0199534 , 0.9770546 , 0.999394  , 1.0149245 , 1.0473361 ,\n",
+       "                       1.0330361 , 0.9756772 , 0.9943355 , 1.0108433 , 1.0134748 ,\n",
+       "                       1.0013411 , 0.9506735 , 1.0379674 , 1.0353746 , 1.002177  ,\n",
+       "                       1.0023688 , 0.9892762 , 0.9773186 , 1.0141166 , 1.002981  ,\n",
+       "                       1.0191174 , 0.98849046, 1.022799  , 1.0195305 , 1.0230048 ,\n",
+       "                       1.0099448 , 0.98876977, 0.99861807, 0.97954166, 0.99275714,\n",
+       "                       1.0210892 , 1.0309327 , 0.9666654 , 1.0129836 , 0.9747011 ,\n",
+       "                       1.0128973 , 1.012891  , 0.9990587 , 1.0170548 , 1.010477  ,\n",
+       "                       1.0182072 , 1.0451443 , 1.0147196 , 1.0275202 , 1.0031815 ,\n",
+       "                       0.9713346 , 1.0140051 , 1.008478  , 0.97465855, 1.002004  ,\n",
+       "                       0.9743532 , 0.9646272 , 1.0154831 , 1.0049416 , 1.0383679 ,\n",
+       "                       1.0292878 , 1.0018117 , 1.0358334 , 1.0231141 , 0.9852119 ,\n",
+       "                       0.99526   , 1.0031705 , 1.0005804 , 1.0160758 , 1.0009396 ,\n",
+       "                       0.9937701 , 0.97460693, 0.9934284 , 0.9907833 , 0.9996789 ,\n",
+       "                       0.9982435 , 0.95795155, 1.0261976 , 0.9944988 , 0.991796  ,\n",
+       "                       1.006492  , 1.0282378 , 1.0289887 , 0.98540115, 1.0217592 ,\n",
+       "                       1.0396023 , 0.9858527 , 1.0488491 , 1.013778  , 1.0042695 ,\n",
+       "                       1.0170459 , 1.0154129 , 1.063929  , 0.9751546 , 0.9910128 ,\n",
+       "                       0.99503356, 1.0161502 , 0.9895987 , 1.0674409 , 1.0243562 ,\n",
+       "                       0.98804605, 1.0005897 , 0.992049  , 1.0179774 , 1.0048453 ,\n",
+       "                       0.99315923, 1.0526005 , 0.979498  , 1.0266209 , 1.0236341 ,\n",
+       "                       0.99886864, 1.0421077 , 1.0011927 , 0.96343213, 0.99783915,\n",
+       "                       1.02873   , 1.0166678 , 0.99097514, 1.0069718 , 1.0072308 ,\n",
+       "                       1.0127227 , 1.0288228 , 1.0415279 , 1.0005622 , 0.9816634 ,\n",
+       "                       1.0572006 , 1.0198735 , 1.0341889 , 1.0459491 , 1.0213513 ,\n",
+       "                       1.0223459 , 1.0222113 , 0.96529055, 1.022591  , 1.0126592 ,\n",
+       "                       1.0198402 , 1.0261475 , 1.0120711 , 1.0275295 , 0.9952427 ,\n",
+       "                       1.0431594 , 0.97232854], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-2.37033051e-03,  1.91313978e-02,  1.01093650e-02,  4.05753450e-03,\n",
+       "                       -1.70360077e-02,  6.06864411e-03,  9.15885065e-03, -5.63371833e-03,\n",
+       "                       -2.02597678e-03, -2.18763780e-02, -3.09356581e-03, -1.91516075e-02,\n",
+       "                        1.66877150e-03, -2.36133747e-02, -2.20339838e-02, -2.80247089e-02,\n",
+       "                       -2.89943665e-02, -1.30719393e-02, -1.63518302e-02, -2.60582590e-03,\n",
+       "                       -3.11099421e-02,  1.96724385e-02,  3.32913222e-03,  1.69437453e-02,\n",
+       "                       -2.27522640e-03, -8.11038818e-03,  4.56425697e-02, -2.27964334e-02,\n",
+       "                       -1.25466911e-02,  2.61981692e-02,  1.28261317e-02,  9.49844532e-03,\n",
+       "                        2.52729468e-02, -7.68367993e-03,  1.39565291e-02,  1.90326143e-02,\n",
+       "                        1.07567376e-02, -2.58484725e-02, -3.55810975e-03, -1.75751355e-02,\n",
+       "                        1.92785300e-02,  1.84035245e-02,  6.28257543e-03,  9.46599059e-03,\n",
+       "                        3.20155472e-02,  6.54644100e-03, -1.70770939e-03,  3.20957415e-02,\n",
+       "                       -1.10255778e-02,  1.71637558e-03,  1.42931764e-04,  6.96345791e-02,\n",
+       "                       -4.99027446e-02, -1.42051978e-02,  2.29926314e-02, -4.28680517e-02,\n",
+       "                       -2.90031210e-02, -1.41013991e-02, -1.47265557e-03,  4.14010547e-02,\n",
+       "                       -2.40229759e-02, -6.86572865e-03,  5.20605454e-03, -2.06006714e-03,\n",
+       "                        1.92263592e-02,  1.79059729e-02,  1.09153679e-02, -1.67970061e-02,\n",
+       "                       -3.77605371e-02,  1.99129079e-02, -2.10124403e-02,  8.80824681e-03,\n",
+       "                        2.72766445e-02,  8.14127456e-03,  1.92559808e-02,  2.78823264e-02,\n",
+       "                        4.32518590e-03,  2.51557603e-02,  3.51047292e-02,  5.63334860e-03,\n",
+       "                       -4.68640728e-03, -2.18737293e-02, -7.34007731e-03,  9.59546305e-03,\n",
+       "                       -1.38547756e-02,  1.78651828e-02, -2.37801727e-02,  4.65563685e-03,\n",
+       "                       -3.05796915e-04,  1.95858218e-02, -2.20856126e-02, -1.24227609e-02,\n",
+       "                       -1.77869350e-02,  2.46098898e-02,  5.85811818e-03,  5.50471433e-03,\n",
+       "                        4.94662253e-03, -3.92277874e-02,  1.83651447e-02, -1.67005658e-02,\n",
+       "                        1.26100359e-02,  2.88667548e-02, -1.00637684e-02, -5.48522128e-03,\n",
+       "                        1.85373705e-02, -2.42446433e-03,  9.86807607e-03, -3.94466380e-03,\n",
+       "                        3.72836436e-03, -1.00599965e-02,  7.89202005e-03, -1.10111339e-02,\n",
+       "                        4.22599353e-03, -2.47036517e-02,  5.58750471e-04,  1.41762767e-03,\n",
+       "                        1.36968903e-02, -1.66733786e-02,  2.72763204e-02, -2.58759670e-02,\n",
+       "                        1.21340379e-02,  2.35210322e-02,  1.54033285e-02,  1.39820594e-02,\n",
+       "                        5.67326415e-03,  1.50017312e-03, -2.76013114e-03,  2.88881287e-02,\n",
+       "                       -3.20774689e-03,  2.97818799e-02, -1.94280769e-03, -2.28080340e-02,\n",
+       "                        1.21221878e-02, -8.36547278e-03, -3.55398119e-03, -5.41792600e-04,\n",
+       "                       -3.06898518e-03, -2.80403141e-02, -2.86662858e-03, -7.91238155e-03,\n",
+       "                        2.32149065e-02, -1.11842039e-03,  2.01880708e-02, -2.16523418e-03,\n",
+       "                        2.88938568e-03,  1.61452312e-02,  4.12153117e-02,  9.43372492e-03,\n",
+       "                       -3.54020633e-02, -1.30866235e-02,  1.56355500e-02, -1.49343936e-02,\n",
+       "                       -2.56032422e-02,  2.89632153e-05, -2.46269181e-02, -1.50771979e-02,\n",
+       "                       -3.95376608e-02,  5.34949219e-03,  9.42495372e-03, -4.92170919e-03,\n",
+       "                        4.10526711e-03,  2.22940072e-02, -2.31830720e-02, -1.66208707e-02,\n",
+       "                        1.91355534e-02, -3.46482210e-02,  5.57400146e-03, -1.59618463e-02,\n",
+       "                        3.18800770e-02,  2.25322861e-02, -4.54151118e-03,  1.49050048e-02,\n",
+       "                       -2.40489636e-02, -3.10217272e-02, -7.37116206e-03,  1.22891106e-02,\n",
+       "                        2.90672597e-03, -2.32472681e-02, -8.74773785e-03, -1.95246432e-02,\n",
+       "                        6.01558946e-03,  5.16772131e-03,  2.31722388e-02,  2.74683330e-02,\n",
+       "                       -1.15139652e-02, -6.45596720e-03, -2.21686754e-02, -3.20681208e-03,\n",
+       "                       -3.18386555e-02, -1.94104444e-02,  2.18740031e-02,  6.25720434e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.01058718,  0.03682905,  0.09114693, ..., -0.03453917,\n",
+       "                       -0.01760284,  0.09259388],\n",
+       "                      [-0.00297024, -0.02378768, -0.07082628, ..., -0.06978793,\n",
+       "                        0.05483576, -0.05034392],\n",
+       "                      [-0.08363335, -0.06822307,  0.03970811, ..., -0.12143752,\n",
+       "                        0.11783837,  0.03857919],\n",
+       "                      ...,\n",
+       "                      [-0.01670413, -0.07294234, -0.08620504, ...,  0.10722338,\n",
+       "                        0.00923203, -0.03350214],\n",
+       "                      [ 0.06109136,  0.06042374, -0.00659119, ...,  0.0707885 ,\n",
+       "                       -0.02079144,  0.01066571],\n",
+       "                      [ 0.10982136, -0.02290034, -0.014448  , ..., -0.0806082 ,\n",
+       "                       -0.03159957, -0.01608819]],\n",
+       "              \n",
+       "                     [[-0.11605033, -0.01375149, -0.07468455, ...,  0.01621455,\n",
+       "                        0.08687735,  0.05813948],\n",
+       "                      [ 0.04203267, -0.12218651,  0.09532513, ...,  0.13221355,\n",
+       "                        0.11181808,  0.02940457],\n",
+       "                      [-0.08041264,  0.0090088 , -0.05519261, ...,  0.06512534,\n",
+       "                       -0.0642755 , -0.08553269],\n",
+       "                      ...,\n",
+       "                      [ 0.1317722 ,  0.13678272,  0.0329141 , ...,  0.03373389,\n",
+       "                        0.09339988,  0.0894448 ],\n",
+       "                      [-0.06164918, -0.12587458,  0.09905007, ..., -0.13373971,\n",
+       "                       -0.07916333, -0.01780121],\n",
+       "                      [-0.03096768,  0.08641233,  0.02373505, ...,  0.09452015,\n",
+       "                       -0.03499092,  0.01695814]],\n",
+       "              \n",
+       "                     [[ 0.02651143, -0.06353214, -0.12777635, ...,  0.03804458,\n",
+       "                        0.00197261, -0.10712351],\n",
+       "                      [-0.01875591, -0.00738947,  0.11065426, ...,  0.09544057,\n",
+       "                       -0.05187849,  0.08287732],\n",
+       "                      [ 0.08060304,  0.05765998, -0.12754323, ...,  0.04160313,\n",
+       "                       -0.11778066,  0.03986501],\n",
+       "                      ...,\n",
+       "                      [ 0.11805814,  0.06904506,  0.14718172, ..., -0.02883004,\n",
+       "                        0.07223026,  0.07664383],\n",
+       "                      [-0.09684561, -0.02213801, -0.03465832, ..., -0.02261032,\n",
+       "                        0.07118997,  0.00508467],\n",
+       "                      [ 0.00057492,  0.02659811,  0.04062701, ...,  0.05967619,\n",
+       "                        0.06339315,  0.03982014]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.01507929, -0.07893618, -0.0322073 , ...,  0.07576791,\n",
+       "                       -0.10563017, -0.00738726],\n",
+       "                      [-0.0478123 ,  0.08185118, -0.05651506, ..., -0.0263147 ,\n",
+       "                       -0.02521784, -0.07904705],\n",
+       "                      [-0.0155017 ,  0.05927561, -0.05986115, ..., -0.08566193,\n",
+       "                        0.05634455,  0.110907  ],\n",
+       "                      ...,\n",
+       "                      [ 0.01034647, -0.06524284, -0.0334756 , ...,  0.06058369,\n",
+       "                        0.0865595 , -0.04121307],\n",
+       "                      [-0.01043255,  0.0526881 , -0.08253193, ...,  0.08965821,\n",
+       "                        0.07281312, -0.01089244],\n",
+       "                      [ 0.07120045, -0.04455291, -0.04121703, ..., -0.05069685,\n",
+       "                        0.06488623,  0.1029586 ]],\n",
+       "              \n",
+       "                     [[ 0.02727754,  0.05163872,  0.01280662, ..., -0.00124914,\n",
+       "                       -0.04083077,  0.09018545],\n",
+       "                      [ 0.03548221,  0.03749135, -0.03751899, ..., -0.04528967,\n",
+       "                       -0.03048984, -0.05268783],\n",
+       "                      [-0.06498884, -0.00233416, -0.03278327, ..., -0.07556193,\n",
+       "                        0.09041151, -0.0185978 ],\n",
+       "                      ...,\n",
+       "                      [ 0.05837246, -0.090928  ,  0.05213014, ...,  0.08073077,\n",
+       "                       -0.02314409, -0.04946245],\n",
+       "                      [ 0.04946104,  0.05461764,  0.02328938, ...,  0.10022704,\n",
+       "                       -0.03574402,  0.01422984],\n",
+       "                      [ 0.06283685, -0.04212229,  0.06461163, ..., -0.04840949,\n",
+       "                       -0.03460325,  0.00901603]],\n",
+       "              \n",
+       "                     [[ 0.01957136, -0.10803653, -0.120051  , ...,  0.05207831,\n",
+       "                        0.04294526, -0.13189642],\n",
+       "                      [ 0.07092424, -0.09620617,  0.15316002, ...,  0.18548235,\n",
+       "                        0.03283798, -0.00430182],\n",
+       "                      [ 0.12585637,  0.09406012, -0.02678724, ...,  0.15702237,\n",
+       "                       -0.11289927, -0.06027082],\n",
+       "                      ...,\n",
+       "                      [-0.02933937,  0.04369094,  0.04304244, ..., -0.06891637,\n",
+       "                        0.09840393,  0.06937052],\n",
+       "                      [-0.09791669, -0.14413498,  0.1201906 , ..., -0.1417487 ,\n",
+       "                       -0.01431887,  0.07915976],\n",
+       "                      [-0.12835288,  0.02503126,  0.06159561, ...,  0.06953844,\n",
+       "                        0.07483927, -0.00633557]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-5.90210855e-02,  4.34171669e-02, -1.99635141e-03, ...,\n",
+       "                       -2.44745705e-02,  9.98274889e-03, -4.79703546e-02],\n",
+       "                      [-2.75882166e-02,  9.31519084e-03,  3.69278379e-02, ...,\n",
+       "                       -4.56331018e-03, -4.12776135e-02,  1.14590205e-01],\n",
+       "                      [ 3.64195593e-02,  1.58521105e-02, -1.81169366e-03, ...,\n",
+       "                        3.14169787e-02, -6.23576753e-02,  1.52163242e-03],\n",
+       "                      ...,\n",
+       "                      [-6.99238200e-03,  5.00007086e-02,  2.39356533e-02, ...,\n",
+       "                       -9.98626091e-03, -2.38673594e-02,  4.39484284e-04],\n",
+       "                      [-2.19905470e-02, -2.52510794e-02, -2.14587487e-02, ...,\n",
+       "                       -4.18025665e-02,  2.49287635e-02, -1.54041843e-02],\n",
+       "                      [-3.79781984e-02, -1.87126379e-02, -1.99985690e-02, ...,\n",
+       "                        4.43660878e-02, -1.27250701e-02,  1.84512883e-02]],\n",
+       "              \n",
+       "                     [[ 5.41945063e-02,  1.34145143e-02,  2.77874246e-03, ...,\n",
+       "                       -1.96275264e-02,  1.13267377e-02, -7.53151327e-02],\n",
+       "                      [-2.57847179e-02,  1.59293264e-02, -2.07306109e-02, ...,\n",
+       "                       -8.93725175e-03, -4.47612628e-02,  3.60955410e-02],\n",
+       "                      [ 5.62713705e-02,  1.73182245e-02, -3.89385241e-04, ...,\n",
+       "                       -1.96348689e-02,  9.15800314e-03,  3.72796655e-02],\n",
+       "                      ...,\n",
+       "                      [-7.02946708e-02, -4.45559956e-02, -1.17102703e-02, ...,\n",
+       "                       -3.87443602e-02, -1.17546711e-02, -5.91564924e-02],\n",
+       "                      [ 2.06296332e-03,  4.28916253e-02, -2.77703851e-02, ...,\n",
+       "                        3.47270779e-02,  6.60240874e-02,  2.54680440e-02],\n",
+       "                      [-1.49701638e-02, -6.02386929e-02, -2.47875825e-02, ...,\n",
+       "                       -1.61316264e-02,  2.95853242e-02, -5.91987073e-02]],\n",
+       "              \n",
+       "                     [[-4.37036753e-02, -6.95727346e-03,  2.36706119e-02, ...,\n",
+       "                       -9.38698556e-03,  3.88122424e-02,  2.49317791e-02],\n",
+       "                      [ 1.27064716e-02, -2.35662591e-02, -2.61280220e-02, ...,\n",
+       "                        7.28443777e-03,  8.27534422e-02,  7.51149887e-03],\n",
+       "                      [-5.24830706e-02, -3.81087908e-03,  1.30844116e-02, ...,\n",
+       "                        6.81623304e-03,  2.32157055e-02, -5.30048907e-02],\n",
+       "                      ...,\n",
+       "                      [-4.61471193e-02,  1.03602861e-03, -4.46353555e-02, ...,\n",
+       "                        2.28072926e-02, -1.36079732e-02, -2.53427215e-02],\n",
+       "                      [ 2.07929667e-02, -2.94016507e-02,  5.45149893e-02, ...,\n",
+       "                       -2.74515636e-02, -9.74052548e-02,  8.14550277e-03],\n",
+       "                      [ 9.77054797e-03, -9.50433221e-03,  7.28448946e-03, ...,\n",
+       "                       -3.74069698e-02, -3.43832858e-02, -3.92707661e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 6.10093474e-02,  1.68410763e-02,  8.68699979e-03, ...,\n",
+       "                       -3.45595144e-02,  3.28637511e-02, -4.64203767e-05],\n",
+       "                      [ 7.97479451e-02, -2.38789544e-02,  2.74105147e-02, ...,\n",
+       "                       -4.17989865e-03,  2.49404870e-02,  6.70280159e-02],\n",
+       "                      [ 4.83222480e-04, -4.25363481e-02,  6.34995773e-02, ...,\n",
+       "                        4.12282310e-02, -1.54497288e-02, -4.75513749e-02],\n",
+       "                      ...,\n",
+       "                      [-3.38124484e-02,  1.39421206e-02,  6.07055658e-03, ...,\n",
+       "                       -2.44325697e-02, -3.31673808e-02,  4.83592227e-03],\n",
+       "                      [ 7.39810523e-04, -8.04365706e-03,  3.52239385e-02, ...,\n",
+       "                       -4.01173607e-02, -6.56333640e-02,  2.45116055e-02],\n",
+       "                      [-1.14331609e-02,  1.55496271e-02,  5.85486293e-02, ...,\n",
+       "                        2.79851649e-02, -1.92271871e-03, -2.75689736e-02]],\n",
+       "              \n",
+       "                     [[ 2.35009473e-02, -3.08533590e-02,  4.36399970e-03, ...,\n",
+       "                       -2.93166190e-03,  1.46314385e-03,  5.68151474e-04],\n",
+       "                      [-4.93079200e-02, -1.97271518e-02,  3.50344703e-02, ...,\n",
+       "                        2.04764493e-02, -4.60682251e-03,  1.08513152e-02],\n",
+       "                      [ 6.89943740e-03,  2.28747390e-02,  9.06581699e-05, ...,\n",
+       "                        2.52446663e-02, -2.19965056e-02, -7.60986877e-04],\n",
+       "                      ...,\n",
+       "                      [-2.55710836e-02,  5.00606634e-02, -3.40986438e-02, ...,\n",
+       "                       -4.90233079e-02,  1.36359530e-02,  2.61313133e-02],\n",
+       "                      [-4.76434920e-03, -1.00291260e-02, -3.64733823e-02, ...,\n",
+       "                       -3.12171355e-02,  5.43197058e-02,  6.78825472e-03],\n",
+       "                      [ 3.33094154e-03,  2.56252754e-02, -4.12063822e-02, ...,\n",
+       "                        2.19627749e-02,  2.01614574e-02,  2.65088282e-03]],\n",
+       "              \n",
+       "                     [[ 3.51362936e-02,  2.48704609e-02,  3.57548483e-02, ...,\n",
+       "                       -2.47696275e-03, -6.84352545e-03,  4.15612645e-02],\n",
+       "                      [-2.16142964e-02,  3.19883004e-02, -3.55823301e-02, ...,\n",
+       "                       -7.67420605e-02, -3.91073665e-03,  7.03935279e-03],\n",
+       "                      [-4.79541570e-02, -2.93009151e-02,  2.61855195e-03, ...,\n",
+       "                       -4.90158983e-02,  4.67158407e-02, -1.52994962e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.18879750e-02, -3.51569764e-02,  2.65400689e-02, ...,\n",
+       "                       -4.44353409e-02, -2.41325963e-02, -1.79594886e-02],\n",
+       "                      [ 1.76957212e-02,  3.91266383e-02, -3.90461832e-02, ...,\n",
+       "                        6.36743829e-02,  1.41147627e-02,  2.26510391e-02],\n",
+       "                      [ 5.80539107e-02, -1.34982064e-03,  8.36841110e-03, ...,\n",
+       "                       -2.82480065e-02, -2.39372402e-02, -6.27177358e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.03499625,  0.10368989,  0.02441348, ..., -0.003244  ,\n",
+       "                        0.1242573 , -0.02445888],\n",
+       "                      [ 0.06626423,  0.03306542,  0.04200595, ..., -0.00377446,\n",
+       "                       -0.04789376, -0.00962668],\n",
+       "                      [ 0.02439465,  0.03888132,  0.0930598 , ...,  0.02133278,\n",
+       "                        0.00426779, -0.0027867 ],\n",
+       "                      ...,\n",
+       "                      [-0.07516909,  0.00131968,  0.08840876, ...,  0.0255404 ,\n",
+       "                        0.03979552, -0.00712845],\n",
+       "                      [ 0.02686626,  0.0474382 , -0.03639288, ..., -0.01380529,\n",
+       "                       -0.07007378, -0.0813513 ],\n",
+       "                      [ 0.03377542,  0.02405026,  0.03543339, ...,  0.10293096,\n",
+       "                        0.00264665,  0.01565776]],\n",
+       "              \n",
+       "                     [[-0.08188748,  0.05205513,  0.01543365, ..., -0.04916153,\n",
+       "                       -0.00486754,  0.02816534],\n",
+       "                      [ 0.03138385, -0.01935313, -0.00362915, ..., -0.03934926,\n",
+       "                       -0.03689792,  0.0408057 ],\n",
+       "                      [ 0.03388436,  0.01132539, -0.00629398, ..., -0.0243766 ,\n",
+       "                        0.01286879, -0.01746798],\n",
+       "                      ...,\n",
+       "                      [-0.02282297, -0.0242937 , -0.00180181, ..., -0.04940225,\n",
+       "                        0.02674352, -0.03147774],\n",
+       "                      [-0.00590355,  0.05113911, -0.05632209, ...,  0.01716853,\n",
+       "                        0.053973  , -0.01721259],\n",
+       "                      [ 0.01434179, -0.07245232,  0.04085753, ..., -0.0078034 ,\n",
+       "                       -0.0121857 , -0.03913871]],\n",
+       "              \n",
+       "                     [[-0.00695662, -0.04655296,  0.03048942, ...,  0.06132224,\n",
+       "                       -0.02065242, -0.02096963],\n",
+       "                      [ 0.04609573, -0.01144827, -0.06003907, ..., -0.0560175 ,\n",
+       "                        0.02100761,  0.0228186 ],\n",
+       "                      [-0.03846058,  0.03252802,  0.00800997, ...,  0.07366328,\n",
+       "                       -0.0163412 , -0.10112622],\n",
+       "                      ...,\n",
+       "                      [-0.07112869,  0.10818554, -0.01021741, ...,  0.00266738,\n",
+       "                       -0.10965998,  0.02935306],\n",
+       "                      [ 0.05889724, -0.12726855,  0.12080267, ..., -0.03079782,\n",
+       "                        0.0906305 ,  0.01734046],\n",
+       "                      [-0.02777254, -0.0228948 ,  0.0578153 , ..., -0.03823967,\n",
+       "                        0.06430312, -0.01865608]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.05212348,  0.06225601,  0.02271289, ...,  0.03182417,\n",
+       "                        0.08700036, -0.0555932 ],\n",
+       "                      [-0.03063332,  0.02239786,  0.04392305, ..., -0.06799869,\n",
+       "                       -0.08198479, -0.07357355],\n",
+       "                      [-0.02034809, -0.01488189,  0.04446471, ...,  0.04523299,\n",
+       "                        0.02299662, -0.08508556],\n",
+       "                      ...,\n",
+       "                      [-0.0630619 , -0.00326777,  0.07529815, ...,  0.07736243,\n",
+       "                       -0.02641278, -0.01558439],\n",
+       "                      [-0.00505954, -0.00527645,  0.00349639, ..., -0.08421702,\n",
+       "                       -0.15770313, -0.01171341],\n",
+       "                      [ 0.05193078, -0.02109497, -0.01585859, ...,  0.04012403,\n",
+       "                        0.00776516, -0.00768213]],\n",
+       "              \n",
+       "                     [[-0.01086067, -0.01013926, -0.02052613, ..., -0.04621197,\n",
+       "                       -0.02328359, -0.02165491],\n",
+       "                      [ 0.00678213,  0.04759999,  0.03928592, ...,  0.00628171,\n",
+       "                       -0.03659431, -0.14732365],\n",
+       "                      [-0.03558236, -0.02751897,  0.09481781, ...,  0.03997346,\n",
+       "                        0.00752993, -0.04923102],\n",
+       "                      ...,\n",
+       "                      [-0.01625077,  0.0435727 ,  0.0224928 , ..., -0.0035042 ,\n",
+       "                       -0.01483486,  0.00095091],\n",
+       "                      [ 0.00197387, -0.00375712, -0.09286434, ...,  0.00430453,\n",
+       "                       -0.07713191, -0.00726935],\n",
+       "                      [ 0.00977126,  0.02570093,  0.03785006, ...,  0.05807488,\n",
+       "                       -0.03257946,  0.01100252]],\n",
+       "              \n",
+       "                     [[ 0.01490742, -0.0075912 ,  0.04570058, ...,  0.02852859,\n",
+       "                       -0.06967055,  0.05600562],\n",
+       "                      [-0.06049841,  0.04676878, -0.0356914 , ..., -0.09061135,\n",
+       "                        0.02721851,  0.1031031 ],\n",
+       "                      [-0.02274511, -0.03750526, -0.04827409, ...,  0.04286766,\n",
+       "                        0.03133019, -0.09780896],\n",
+       "                      ...,\n",
+       "                      [ 0.01363596, -0.01576995,  0.03846902, ..., -0.02080678,\n",
+       "                       -0.0135158 , -0.03386639],\n",
+       "                      [ 0.03265294, -0.03636529,  0.00703335, ...,  0.02018376,\n",
+       "                        0.09976398,  0.01334047],\n",
+       "                      [ 0.04487696,  0.00229338, -0.00530353, ..., -0.04746012,\n",
+       "                       -0.04386255,  0.00277895]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-2.60222312e-02,  5.84395118e-02, -4.04157117e-02, ...,\n",
+       "                        1.48216095e-02,  4.02947480e-05, -5.04574403e-02],\n",
+       "                      [-6.21017255e-02,  2.54838169e-02, -1.11651523e-02, ...,\n",
+       "                       -9.53497216e-02,  3.88340950e-02, -4.70961332e-02],\n",
+       "                      [ 6.00389540e-02,  2.73694806e-02,  4.47529890e-02, ...,\n",
+       "                        1.50397392e-02,  1.18650291e-02,  3.46209039e-03],\n",
+       "                      ...,\n",
+       "                      [-2.76118517e-02,  6.55359104e-02,  6.68228492e-02, ...,\n",
+       "                        4.72235866e-02, -2.42901035e-02, -1.06963292e-01],\n",
+       "                      [-2.77316780e-03,  1.53887141e-02,  7.71147236e-02, ...,\n",
+       "                       -5.19116297e-02, -7.69299194e-02,  5.24399942e-03],\n",
+       "                      [-2.73462981e-02,  1.70894191e-02, -8.97630677e-02, ...,\n",
+       "                        9.27861407e-02, -3.92925851e-02,  2.44278256e-02]],\n",
+       "              \n",
+       "                     [[-2.29248293e-02,  3.18437591e-02,  1.77433379e-02, ...,\n",
+       "                        8.18003118e-02,  9.53000132e-03, -2.18560249e-02],\n",
+       "                      [ 4.04776027e-03, -4.45191078e-02, -4.65767570e-02, ...,\n",
+       "                       -8.41830205e-03,  4.19528745e-02,  1.65497605e-02],\n",
+       "                      [-8.12439155e-03,  2.35381648e-02,  2.96809077e-02, ...,\n",
+       "                        1.54563710e-02, -4.40086611e-02,  5.35383215e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.31634337e-02,  2.52157692e-02, -1.08905993e-02, ...,\n",
+       "                        3.34993191e-02,  9.85676330e-03, -7.43922517e-02],\n",
+       "                      [-2.42449529e-03,  5.92559986e-02,  5.11595160e-02, ...,\n",
+       "                       -2.74109095e-02, -1.07686250e-02, -2.58762110e-02],\n",
+       "                      [ 8.77888687e-03,  4.15485119e-03,  4.07865457e-02, ...,\n",
+       "                       -3.36937904e-02, -4.15369943e-02,  1.63083058e-02]],\n",
+       "              \n",
+       "                     [[ 5.59731163e-02,  9.40865837e-04, -3.99676114e-02, ...,\n",
+       "                        3.92957008e-05,  2.13426407e-02,  6.93521276e-02],\n",
+       "                      [-2.31576152e-02, -1.13683179e-01, -7.08401650e-02, ...,\n",
+       "                       -4.93601114e-02,  1.60239451e-02, -6.02123514e-03],\n",
+       "                      [-5.44834472e-02,  9.73903015e-02,  2.66058408e-02, ...,\n",
+       "                       -1.03222691e-02, -3.13847288e-02,  8.17910396e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.32927050e-02,  1.65277743e-04,  2.83438880e-02, ...,\n",
+       "                       -3.37208360e-02, -8.07579886e-03,  5.44273034e-02],\n",
+       "                      [ 1.37472153e-02, -1.74567997e-02,  2.51554549e-02, ...,\n",
+       "                       -2.99388468e-02,  2.51911394e-02, -2.83543076e-02],\n",
+       "                      [-6.73618494e-03, -1.49712656e-02,  2.21684668e-02, ...,\n",
+       "                        1.94804482e-02, -8.13565031e-02, -6.77165529e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-8.68965462e-02, -4.31557857e-02,  5.51183000e-02, ...,\n",
+       "                        1.32108117e-02,  6.31776229e-02,  1.33024743e-02],\n",
+       "                      [-1.91593207e-02,  2.63363961e-02,  5.12307882e-02, ...,\n",
+       "                       -5.01694344e-03, -2.47832928e-02,  1.00958712e-01],\n",
+       "                      [-2.98409574e-02, -2.89197396e-02, -2.96355560e-02, ...,\n",
+       "                       -2.28063716e-03,  1.55943036e-02,  4.19797488e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.23408533e-03, -4.96497378e-03, -4.33851629e-02, ...,\n",
+       "                        6.77778106e-03,  1.08948061e-02, -2.46948246e-02],\n",
+       "                      [ 9.09509894e-04,  2.35100873e-02, -7.15512782e-03, ...,\n",
+       "                       -3.03056045e-03,  2.06068903e-02,  6.78216899e-03],\n",
+       "                      [-4.98484494e-03, -1.67775713e-02, -2.53081992e-02, ...,\n",
+       "                       -1.72428526e-02, -5.96908294e-03, -2.81756073e-02]],\n",
+       "              \n",
+       "                     [[-4.06549759e-02, -8.54958817e-02,  3.20118181e-02, ...,\n",
+       "                       -9.01027210e-03, -5.83289266e-02,  3.13874111e-02],\n",
+       "                      [ 3.72208804e-02, -3.50959525e-02,  5.92664853e-02, ...,\n",
+       "                       -2.44024489e-02, -6.03382662e-03,  1.07590649e-02],\n",
+       "                      [ 3.33920643e-02, -5.07712923e-02, -9.08425674e-02, ...,\n",
+       "                       -6.12898469e-02, -1.19671691e-02, -4.63146809e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.64089513e-02,  6.24940842e-02, -1.78400706e-02, ...,\n",
+       "                       -5.61551414e-02,  2.23524822e-03, -8.09779540e-02],\n",
+       "                      [-3.31087760e-03, -2.66115982e-02, -7.24890828e-02, ...,\n",
+       "                        1.27035836e-02,  5.93658872e-02,  8.49522091e-03],\n",
+       "                      [ 1.13903126e-02, -1.16416551e-02,  1.85670867e-03, ...,\n",
+       "                        5.33347242e-02,  6.44833669e-02, -6.31448403e-02]],\n",
+       "              \n",
+       "                     [[ 1.38157615e-02, -1.05966637e-02,  1.91061124e-02, ...,\n",
+       "                       -1.72999837e-02,  3.70878652e-02,  6.20286353e-02],\n",
+       "                      [ 4.28929105e-02, -6.32598251e-02, -3.70433405e-02, ...,\n",
+       "                       -4.56658714e-02, -1.95915881e-03,  4.43299115e-02],\n",
+       "                      [ 6.37003360e-03,  2.75323503e-02,  2.10666880e-02, ...,\n",
+       "                        2.99344473e-02, -7.49587268e-02, -2.17993911e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.61318574e-02,  1.23811746e-02, -4.05440964e-02, ...,\n",
+       "                       -4.31292690e-02, -5.03470190e-03,  8.24712291e-02],\n",
+       "                      [ 1.03769107e-02, -5.79541735e-02,  2.62607299e-02, ...,\n",
+       "                       -2.69387923e-02,  9.70299020e-02, -3.52974050e-02],\n",
+       "                      [ 3.55976028e-03, -5.50291240e-02,  1.23006878e-02, ...,\n",
+       "                       -2.95966566e-02,  1.54959597e-03, -4.86069024e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-8.38483348e-02,  2.31822193e-01,  2.13851690e-01, ...,\n",
+       "                       -2.00468123e-01, -2.14652777e-01,  2.08049536e-01],\n",
+       "                      [-2.34030768e-01,  2.41249323e-01, -2.31723949e-01, ...,\n",
+       "                       -2.54080921e-01, -2.33921319e-01, -5.12737259e-02],\n",
+       "                      [-1.99249625e-01, -2.08326742e-01,  2.03389093e-01, ...,\n",
+       "                       -2.03826278e-01,  1.76336125e-01,  1.87720701e-01],\n",
+       "                      ...,\n",
+       "                      [-2.20984355e-01, -2.07582161e-01, -1.95750266e-01, ...,\n",
+       "                        2.08051935e-01, -2.13183627e-01, -2.18951046e-01],\n",
+       "                      [ 2.34683201e-01,  2.27226704e-01, -2.16619805e-01, ...,\n",
+       "                        2.16790468e-01,  4.32744212e-02, -2.23970264e-01],\n",
+       "                      [ 1.94806844e-01, -2.15571046e-01, -2.06097513e-01, ...,\n",
+       "                       -1.86244786e-01, -2.13676661e-01,  1.89965457e-01]],\n",
+       "              \n",
+       "                     [[-4.42975238e-02,  1.57630265e-01,  1.39424905e-01, ...,\n",
+       "                       -1.41038075e-01, -1.42241895e-01,  1.25623509e-01],\n",
+       "                      [-1.77921757e-01,  2.11967751e-01, -2.26524919e-01, ...,\n",
+       "                       -2.06062928e-01, -1.65586978e-01, -6.95726722e-02],\n",
+       "                      [-1.67247087e-01, -1.81318477e-01,  1.69467747e-01, ...,\n",
+       "                       -1.53485283e-01,  1.45415887e-01,  1.55260712e-01],\n",
+       "                      ...,\n",
+       "                      [-1.56913519e-01, -1.62249088e-01, -1.55204266e-01, ...,\n",
+       "                        1.43444046e-01, -1.71046078e-01, -1.73904091e-01],\n",
+       "                      [ 1.93635926e-01,  1.84336051e-01, -1.62056550e-01, ...,\n",
+       "                        1.63478047e-01,  5.67336865e-02, -1.82519183e-01],\n",
+       "                      [ 1.30791783e-01, -1.74211666e-01, -1.54282048e-01, ...,\n",
+       "                       -1.46142587e-01, -1.47283003e-01,  1.45004332e-01]],\n",
+       "              \n",
+       "                     [[-2.23763194e-02,  1.10548735e-01,  1.13961585e-01, ...,\n",
+       "                       -1.22846209e-01, -1.08001612e-01,  1.11099504e-01],\n",
+       "                      [-1.14903681e-01,  1.45980194e-01, -1.62076205e-01, ...,\n",
+       "                       -1.62138835e-01, -9.93332192e-02, -7.59295821e-02],\n",
+       "                      [-1.45943806e-01, -1.26423165e-01,  1.24939464e-01, ...,\n",
+       "                       -1.33653075e-01,  1.16453014e-01,  1.28419548e-01],\n",
+       "                      ...,\n",
+       "                      [-1.26157984e-01, -1.08254664e-01, -8.86367038e-02, ...,\n",
+       "                        1.13142304e-01, -1.27986267e-01, -1.10967726e-01],\n",
+       "                      [ 1.16902225e-01,  1.07311599e-01, -1.10993914e-01, ...,\n",
+       "                        1.04065351e-01,  1.92454439e-02, -1.18891507e-01],\n",
+       "                      [ 1.13881476e-01, -1.50544882e-01, -1.11293599e-01, ...,\n",
+       "                       -1.21600345e-01, -1.28881380e-01,  9.90573615e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.93198472e-02,  6.93891384e-03, -4.82873758e-03, ...,\n",
+       "                       -1.50235975e-02, -1.00725377e-02,  1.56699177e-02],\n",
+       "                      [-2.69417316e-02, -4.01566876e-03,  4.03324189e-03, ...,\n",
+       "                       -8.51614960e-03, -3.55929099e-02, -5.41607477e-03],\n",
+       "                      [-1.07945260e-02, -1.79390702e-02,  2.18113307e-02, ...,\n",
+       "                        6.78763073e-03,  3.28163756e-03,  7.78386369e-03],\n",
+       "                      ...,\n",
+       "                      [-2.11943276e-02, -8.45365506e-03,  1.17011685e-02, ...,\n",
+       "                       -8.47376324e-03,  3.70026659e-03, -7.69790495e-03],\n",
+       "                      [ 1.43602286e-02,  3.27432156e-02, -5.92936995e-03, ...,\n",
+       "                       -1.84389483e-03, -2.91338190e-02, -2.82475073e-02],\n",
+       "                      [-2.68418621e-03, -2.05291342e-02, -1.38617102e-02, ...,\n",
+       "                       -4.46502399e-03, -1.31602371e-02,  6.19610026e-03]],\n",
+       "              \n",
+       "                     [[-1.87813640e-02, -2.63269134e-02, -1.35467686e-02, ...,\n",
+       "                       -2.06283585e-05, -5.63498447e-03, -1.40132979e-02],\n",
+       "                      [ 5.37434453e-03, -1.43898698e-02,  2.40073241e-02, ...,\n",
+       "                        8.42722040e-03, -3.47347138e-03,  1.19807702e-02],\n",
+       "                      [-1.89414732e-02, -3.28293927e-02, -9.62402113e-03, ...,\n",
+       "                       -1.11551620e-02,  4.27324371e-03, -1.12305075e-04],\n",
+       "                      ...,\n",
+       "                      [-6.51453482e-03,  2.68651464e-04,  7.75489898e-04, ...,\n",
+       "                       -8.65114154e-04,  7.63286138e-03, -1.33012878e-02],\n",
+       "                      [-1.50750997e-02, -2.27773674e-02, -2.01963820e-02, ...,\n",
+       "                        1.64635864e-03,  3.78539898e-02,  2.20775940e-02],\n",
+       "                      [ 1.35440622e-02, -4.92055668e-03, -1.59007441e-02, ...,\n",
+       "                        2.61085276e-02,  6.35240786e-03,  8.60315282e-03]],\n",
+       "              \n",
+       "                     [[-2.15803366e-02, -1.08087119e-02,  1.13709420e-02, ...,\n",
+       "                        1.47044407e-02, -2.82886941e-02,  6.49623806e-04],\n",
+       "                      [-1.10477405e-02,  1.12885274e-02, -2.90112663e-02, ...,\n",
+       "                       -3.87257524e-02,  8.90175719e-03, -7.54495966e-04],\n",
+       "                      [-1.06526650e-02, -6.90023275e-03, -4.19768179e-03, ...,\n",
+       "                       -2.53874697e-02,  2.86018532e-02,  2.44459196e-04],\n",
+       "                      ...,\n",
+       "                      [-1.67301565e-03, -2.12795567e-02, -1.19224796e-02, ...,\n",
+       "                        1.46442349e-03, -2.22806130e-02,  6.63924683e-03],\n",
+       "                      [ 8.91273934e-03,  7.14669749e-03, -9.62579716e-03, ...,\n",
+       "                        1.16560189e-02,  3.91952768e-02, -9.79734119e-04],\n",
+       "                      [ 6.38183206e-03, -1.34688336e-02, -3.29984315e-02, ...,\n",
+       "                       -1.66492760e-02, -1.30946925e-02,  1.18787466e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.16423106, -0.38469982, -0.3735132 , -0.36062995,  0.35491672,\n",
+       "                       0.30675378, -0.369757  , -0.3735996 ,  0.3361493 ,  0.37155104,\n",
+       "                       0.35529906, -0.35900527],\n",
+       "                     [ 0.36032292, -0.39533597,  0.4067043 ,  0.38665825, -0.41844591,\n",
+       "                      -0.38407317,  0.06665102, -0.40094855,  0.12981749,  0.40708718,\n",
+       "                       0.33704334,  0.20176134],\n",
+       "                     [ 0.3641929 ,  0.33772156, -0.34157228, -0.33064222,  0.35928902,\n",
+       "                       0.3505296 , -0.28917113, -0.34267342,  0.3471515 ,  0.36000434,\n",
+       "                      -0.3539097 , -0.35714412],\n",
+       "                     [-0.06508783, -0.05261745, -0.05787039,  0.09592804, -0.06872641,\n",
+       "                       0.08248961, -0.07226678,  0.00372567, -0.09185885, -0.07624064,\n",
+       "                       0.09824912, -0.08826314],\n",
+       "                     [-0.22535086,  0.21506163, -0.25742465,  0.26241964,  0.27259424,\n",
+       "                      -0.25935054,  0.24944761,  0.27162278, -0.2758658 ,  0.25455403,\n",
+       "                       0.26993272,  0.24947089],\n",
+       "                     [ 0.37321004, -0.3610165 , -0.383247  , -0.30993   ,  0.37258562,\n",
+       "                       0.36062348, -0.38371515,  0.38435444, -0.38472158, -0.34580302,\n",
+       "                       0.37965068,  0.38216782],\n",
+       "                     [-0.34043455,  0.3586589 , -0.36051637, -0.36393365,  0.35452688,\n",
+       "                       0.34583843, -0.34793818, -0.35648507,  0.33329266, -0.34890217,\n",
+       "                      -0.30480897, -0.09687542],\n",
+       "                     [ 0.310171  , -0.30914274,  0.35169226, -0.32440984, -0.31516263,\n",
+       "                       0.32149366,  0.33308968, -0.32703304,  0.32237175,  0.31805748,\n",
+       "                      -0.32791835,  0.34103537],\n",
+       "                     [ 0.36250067, -0.33055764, -0.36182252, -0.3633704 ,  0.38364542,\n",
+       "                       0.3653513 , -0.3732293 , -0.36713484,  0.3482648 ,  0.37021795,\n",
+       "                      -0.3800607 ,  0.36612317],\n",
+       "                     [-0.34819588, -0.34070075, -0.3344505 , -0.35448986, -0.3323576 ,\n",
+       "                       0.33474264, -0.34396207,  0.1850862 ,  0.34518316,  0.33939794,\n",
+       "                       0.3087188 ,  0.3154903 ],\n",
+       "                     [-0.00521268, -0.34966052,  0.39728355,  0.40286958,  0.14113763,\n",
+       "                       0.18338075,  0.3778582 ,  0.39929968,  0.40352193, -0.39589   ,\n",
+       "                       0.270306  , -0.39130443],\n",
+       "                     [-0.305632  ,  0.2914839 , -0.32076323,  0.29640222,  0.29829288,\n",
+       "                       0.30555987,  0.28363493, -0.30603474, -0.31561756, -0.30635628,\n",
+       "                       0.29470092,  0.30267796],\n",
+       "                     [-0.3363766 ,  0.27769837, -0.2979814 ,  0.10399283, -0.32105902,\n",
+       "                      -0.2958556 ,  0.3237104 , -0.32333454,  0.32940948, -0.32844833,\n",
+       "                       0.33393648, -0.32689664],\n",
+       "                     [ 0.33623135,  0.33165646,  0.33231246,  0.35222378, -0.33671835,\n",
+       "                      -0.34248263, -0.34308332, -0.34815285, -0.33481395, -0.33606663,\n",
+       "                       0.34226522,  0.33676723],\n",
+       "                     [-0.3630526 , -0.3629615 ,  0.34469852,  0.3607127 ,  0.31636032,\n",
+       "                       0.35155934, -0.28929582, -0.23626964,  0.34002408, -0.33735183,\n",
+       "                      -0.12177668,  0.37182054],\n",
+       "                     [-0.27733785,  0.30173358,  0.307238  ,  0.30162957,  0.30647627,\n",
+       "                       0.3053079 , -0.30058998, -0.27784744, -0.29578808,  0.30614874,\n",
+       "                       0.29812562, -0.3038099 ]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.0153784 ,  0.15187919,  0.16422549,  0.11557093, -0.15214883,\n",
+       "                      -0.0108751 ,  0.1496656 ,  0.16429852, -0.08917865, -0.08614036,\n",
+       "                      -0.10626242,  0.20114891],\n",
+       "                     [-0.04946842,  0.17833   , -0.17946234, -0.14044844,  0.14183456,\n",
+       "                       0.11151879,  0.00990173,  0.16708532,  0.00311802, -0.19296254,\n",
+       "                      -0.07895456, -0.05358064],\n",
+       "                     [-0.12174171, -0.10544308,  0.0556471 ,  0.14016442, -0.1203331 ,\n",
+       "                      -0.13760373,  0.0018499 ,  0.14478828, -0.09927409, -0.13758308,\n",
+       "                       0.10759134,  0.18229558],\n",
+       "                     [-0.04437685, -0.04374039, -0.04879271,  0.04663969, -0.03726794,\n",
+       "                       0.05309596, -0.06383848,  0.05368196, -0.05137848, -0.04447241,\n",
+       "                       0.04251692, -0.0448317 ],\n",
+       "                     [ 0.02396809,  0.00130846,  0.02194868, -0.01184556, -0.0030005 ,\n",
+       "                       0.03207239, -0.0103799 , -0.01964968,  0.02107432, -0.00932663,\n",
+       "                      -0.02965736, -0.00168315],\n",
+       "                     [-0.07083638,  0.04959667,  0.07980317,  0.07978249, -0.08462714,\n",
+       "                      -0.12336076,  0.10494138, -0.10706184,  0.11042266,  0.109396  ,\n",
+       "                      -0.09653424, -0.09866303],\n",
+       "                     [ 0.14528659, -0.156289  ,  0.18201059,  0.18373553, -0.16411057,\n",
+       "                      -0.18423638,  0.12427544,  0.1426011 , -0.09523565,  0.18038762,\n",
+       "                       0.02247501, -0.02538422],\n",
+       "                     [-0.08872726,  0.10119633, -0.10015967,  0.14358221,  0.1124408 ,\n",
+       "                      -0.14102799, -0.1146497 ,  0.1717651 , -0.08129647, -0.11724715,\n",
+       "                       0.10731492, -0.11043375],\n",
+       "                     [-0.2005231 ,  0.06185696,  0.07697932,  0.06992698, -0.08928881,\n",
+       "                      -0.13345496,  0.07226206,  0.12651955, -0.06262372, -0.13094625,\n",
+       "                       0.2037045 , -0.11037874],\n",
+       "                     [ 0.15709904,  0.09147388,  0.1737411 ,  0.11873791,  0.16998032,\n",
+       "                      -0.15156941,  0.19424284, -0.0556564 , -0.13813986, -0.14963529,\n",
+       "                      -0.07981193, -0.11151753],\n",
+       "                     [ 0.04470603,  0.12559803, -0.1948564 , -0.21314116,  0.02316979,\n",
+       "                      -0.06522746, -0.20179616, -0.28449327, -0.18319672,  0.22876535,\n",
+       "                      -0.00935488,  0.15519269],\n",
+       "                     [ 0.06430531, -0.03380948,  0.05436049, -0.00307257, -0.05237532,\n",
+       "                      -0.03553113, -0.0427621 ,  0.05176318,  0.02702462,  0.02999181,\n",
+       "                      -0.00480112, -0.042139  ],\n",
+       "                     [ 0.11094156, -0.02472229,  0.08882555, -0.02997557,  0.15591231,\n",
+       "                       0.10153078, -0.101006  ,  0.05814107, -0.11183677,  0.09545693,\n",
+       "                      -0.10829049,  0.04051792],\n",
+       "                     [-0.06574048, -0.03691431, -0.09033349, -0.0688434 ,  0.06487057,\n",
+       "                       0.07172374,  0.04248628,  0.1066426 ,  0.13915439,  0.03685255,\n",
+       "                      -0.07992487, -0.04460705],\n",
+       "                     [ 0.23797199,  0.19470014, -0.13750102, -0.06404502, -0.06553529,\n",
+       "                      -0.21534863,  0.04347736, -0.00221578, -0.13123493,  0.11218549,\n",
+       "                      -0.00937236, -0.15018238],\n",
+       "                     [ 0.08766682, -0.03309518, -0.04138753, -0.05194065, -0.11309406,\n",
+       "                      -0.07194766,  0.06354056,  0.08337919,  0.05211355, -0.05003445,\n",
+       "                      -0.08326187,  0.08595324]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-3.51440278e-03,  1.28068281e-02,  9.19135939e-03,\n",
+       "                       -3.05396481e-03, -6.16500911e-04,  9.72186588e-03,\n",
+       "                       -1.00571867e-02,  1.34833576e-03, -7.79370544e-03,\n",
+       "                        9.78772156e-03,  4.55377297e-03, -5.02773281e-03],\n",
+       "                      [-8.44756886e-03, -4.46955813e-03,  1.38254594e-02,\n",
+       "                       -6.54884754e-03, -9.89573449e-03, -6.60769758e-04,\n",
+       "                        7.96791725e-03,  2.92509166e-03, -1.31910515e-03,\n",
+       "                       -1.76212788e-02, -5.74108446e-03,  1.35668777e-02],\n",
+       "                      [ 7.59718334e-03, -8.26640171e-04, -4.97201836e-05,\n",
+       "                       -1.47614749e-02, -1.79277305e-02,  1.54404622e-02,\n",
+       "                       -4.48500132e-03, -9.16617166e-04,  9.43473913e-03,\n",
+       "                        3.36088677e-04, -1.03409169e-02,  6.60843856e-04],\n",
+       "                      [ 4.60142409e-03,  2.74095777e-03,  1.32161528e-02,\n",
+       "                       -1.12573681e-02, -8.54524784e-03, -7.35977059e-03,\n",
+       "                       -6.57367869e-04,  1.94121711e-02, -5.60901687e-03,\n",
+       "                        4.14388673e-03, -6.89180393e-04,  4.18218365e-03],\n",
+       "                      [ 1.26304673e-02, -4.86150337e-03,  1.53082320e-02,\n",
+       "                        5.87437907e-03, -3.57099832e-03, -1.91523856e-03,\n",
+       "                        4.05658269e-03, -1.05653126e-02,  1.40026063e-02,\n",
+       "                        8.70900322e-03, -3.38857848e-04,  2.11800099e-03],\n",
+       "                      [ 1.64542720e-02, -1.67683437e-02,  2.87021953e-03,\n",
+       "                        7.36033125e-03,  8.16178881e-03, -2.88854167e-03,\n",
+       "                        1.19893893e-03,  6.78116083e-03, -1.56503113e-03,\n",
+       "                        2.57799728e-03, -8.39453936e-03, -2.16512592e-03],\n",
+       "                      [-5.18427370e-03,  3.97628319e-04, -7.69194867e-03,\n",
+       "                       -7.96295889e-03,  6.46016421e-03, -2.63929949e-03,\n",
+       "                        7.07864203e-03,  1.10987788e-02, -4.16698726e-03,\n",
+       "                       -6.38887193e-03, -7.87641481e-03, -1.90893246e-03],\n",
+       "                      [ 3.05788917e-03, -7.70508591e-03,  3.13833193e-03,\n",
+       "                       -2.07884819e-03,  4.61988093e-04, -2.52465741e-03,\n",
+       "                       -1.88974775e-02,  1.05083664e-03, -1.42870443e-02,\n",
+       "                        6.78933924e-03, -1.02472138e-02, -2.58123642e-03],\n",
+       "                      [ 1.57928336e-02, -3.11652035e-03,  1.32909128e-02,\n",
+       "                       -5.56300860e-03, -1.19214160e-02, -1.35856699e-02,\n",
+       "                        6.65100873e-04, -3.69627029e-03,  1.49434535e-02,\n",
+       "                       -9.47162323e-03,  4.01089899e-03, -6.24648621e-03],\n",
+       "                      [-1.78829662e-03, -6.36964012e-03,  1.73489619e-02,\n",
+       "                       -1.69156715e-02, -5.49712451e-03, -8.08496494e-03,\n",
+       "                       -7.92223215e-03, -6.81683188e-03,  2.64624134e-03,\n",
+       "                        1.41025870e-03,  2.09145539e-04, -9.00311582e-03],\n",
+       "                      [-5.08373557e-03,  1.40454490e-02, -8.29873141e-03,\n",
+       "                       -2.17792904e-03, -5.96758304e-03, -8.12754687e-03,\n",
+       "                        8.44507851e-03,  5.37734432e-03, -7.22167548e-03,\n",
+       "                       -1.21807179e-03,  2.20488920e-03,  3.94411199e-03],\n",
+       "                      [ 1.02351140e-02,  3.16174538e-03,  2.71137198e-03,\n",
+       "                       -3.41729168e-03, -7.07039470e-03,  7.89679307e-03,\n",
+       "                        8.78156256e-03,  9.89588629e-03,  1.03757810e-02,\n",
+       "                        1.95973683e-02, -1.40913641e-02,  1.25801878e-03],\n",
+       "                      [-3.83818080e-03,  1.96839683e-02,  6.46740384e-03,\n",
+       "                       -1.42278466e-02,  6.28657825e-03, -2.51149316e-03,\n",
+       "                        1.66517552e-02, -1.11154914e-04, -1.50449043e-02,\n",
+       "                       -1.38718151e-02, -1.88158248e-02,  3.89999687e-03],\n",
+       "                      [-9.82810650e-03,  7.23840389e-03,  8.04117974e-03,\n",
+       "                       -4.56573907e-03, -8.66844319e-03, -2.96851899e-03,\n",
+       "                        9.36693104e-04, -1.41277921e-03, -1.32516930e-02,\n",
+       "                        1.27831437e-02, -5.95587771e-03, -1.78660899e-02],\n",
+       "                      [-5.91566134e-03,  6.21615397e-03, -4.15869895e-03,\n",
+       "                       -4.65120096e-03,  8.56087077e-03,  9.35591583e-04,\n",
+       "                       -9.51862801e-03, -2.55838083e-03, -9.28514730e-03,\n",
+       "                       -6.80608908e-03, -9.65297408e-03,  2.21744226e-03],\n",
+       "                      [ 5.31121297e-03,  2.21850746e-03, -6.31686440e-03,\n",
+       "                        2.72060931e-03,  4.40739421e-03,  6.43866928e-03,\n",
+       "                       -4.65685735e-03, -2.45278166e-03, -3.03451833e-03,\n",
+       "                        1.13026286e-02, -7.83874933e-03, -2.88648950e-03]],\n",
+       "              \n",
+       "                     [[-1.29255829e-02,  1.33011816e-02,  9.97423939e-03,\n",
+       "                        4.91580321e-03,  8.60906672e-03,  8.56189150e-03,\n",
+       "                        7.27360928e-03,  1.51449419e-03, -1.10791158e-02,\n",
+       "                        6.99038908e-04,  8.05190939e-04, -1.70294456e-02],\n",
+       "                      [ 7.62526179e-03, -6.65844604e-03, -5.96659724e-04,\n",
+       "                        1.38548086e-03,  4.48060548e-03, -9.30154510e-03,\n",
+       "                       -2.18432018e-04,  1.64746225e-03,  1.80208081e-04,\n",
+       "                        3.77233583e-03,  5.53707685e-03, -5.38419606e-03],\n",
+       "                      [-3.85529012e-03, -5.49498526e-03, -6.93165697e-03,\n",
+       "                       -8.89187120e-03,  1.25619834e-02, -8.95932782e-03,\n",
+       "                        9.45342798e-03, -6.92727917e-04,  8.13403074e-03,\n",
+       "                        1.46963941e-02, -4.15948313e-03, -7.41479965e-03],\n",
+       "                      [-1.90442596e-02, -7.77103286e-03, -3.67838028e-03,\n",
+       "                       -2.96433736e-03, -1.09969955e-02, -1.70248877e-02,\n",
+       "                        1.95688903e-02, -3.47897620e-03,  1.58165267e-03,\n",
+       "                       -8.68897513e-03, -1.78528065e-03, -1.71255190e-02],\n",
+       "                      [ 9.83172841e-03, -1.57035107e-03, -8.30506533e-03,\n",
+       "                        6.26034802e-03, -7.56533956e-03, -1.15565861e-04,\n",
+       "                        4.92884498e-03, -3.99625394e-03,  2.88844993e-03,\n",
+       "                       -6.28206879e-03,  8.64024647e-03, -2.29776371e-03],\n",
+       "                      [-1.20625710e-02,  1.18367467e-02,  1.06555307e-02,\n",
+       "                       -4.03438415e-03, -1.49667391e-03,  2.98733311e-03,\n",
+       "                       -8.68600793e-04, -3.71868000e-03, -4.97300271e-03,\n",
+       "                        4.00473922e-03, -8.08676530e-04, -1.54704892e-03],\n",
+       "                      [-3.83609696e-03,  6.88413670e-03,  2.54613836e-03,\n",
+       "                        5.47773950e-03, -1.43711697e-02,  1.31799662e-02,\n",
+       "                       -1.03495852e-03, -8.52769427e-03, -7.39515945e-03,\n",
+       "                       -6.77539827e-03,  2.11500144e-03,  1.95467239e-03],\n",
+       "                      [ 8.13793857e-03,  2.21302127e-03,  5.02331462e-03,\n",
+       "                        7.18485937e-03,  2.28810916e-03, -1.45320008e-02,\n",
+       "                       -3.96611728e-03,  3.68614378e-03, -1.72103811e-02,\n",
+       "                       -3.05140228e-03, -7.66682019e-03, -1.08588338e-02],\n",
+       "                      [-1.23977028e-02,  3.38270934e-03, -1.42664164e-02,\n",
+       "                        1.80415530e-02, -1.75846480e-02, -6.40456052e-03,\n",
+       "                       -2.37057498e-03, -1.47757838e-02,  7.56195700e-03,\n",
+       "                        9.45305359e-03,  7.78122060e-03,  1.02762086e-02],\n",
+       "                      [-3.82918934e-03,  1.60034071e-03, -7.77876470e-03,\n",
+       "                        1.33397728e-02,  1.18430490e-02,  4.98617810e-05,\n",
+       "                        1.30701559e-02,  9.02611576e-03,  4.07260330e-03,\n",
+       "                        2.39335559e-03,  2.40562297e-03, -3.25017539e-03],\n",
+       "                      [-8.06587748e-04,  1.26644485e-02,  8.72251578e-03,\n",
+       "                       -5.45040518e-03, -1.73145602e-03,  1.73480762e-03,\n",
+       "                       -5.13556274e-03,  1.80205062e-03,  6.46137225e-04,\n",
+       "                        6.70739915e-04,  5.22772875e-03, -3.31539568e-03],\n",
+       "                      [-1.07927714e-02, -7.33546494e-03, -4.29824786e-03,\n",
+       "                        1.02433376e-04, -5.57086337e-03, -1.02092093e-03,\n",
+       "                       -4.55509359e-03,  8.16038996e-03,  8.92126840e-03,\n",
+       "                        1.19936960e-02, -9.58633423e-03, -7.31446501e-03],\n",
+       "                      [ 2.58941157e-03,  1.61812436e-02,  1.25333546e-02,\n",
+       "                        1.31313223e-02,  1.45212887e-03,  2.96309148e-03,\n",
+       "                        1.70129482e-02, -3.18545871e-03,  9.50108469e-03,\n",
+       "                        1.12201851e-02,  1.86892953e-02, -1.09134382e-02],\n",
+       "                      [ 5.86659182e-03,  7.87080918e-03, -3.16623296e-03,\n",
+       "                        2.74886331e-03, -2.27011624e-03,  2.19338876e-03,\n",
+       "                        5.21903671e-03,  2.66190851e-03,  4.20619873e-03,\n",
+       "                       -5.73166180e-03, -6.65490422e-03, -1.68249682e-02],\n",
+       "                      [ 6.51477603e-03,  1.72201376e-02, -2.36054067e-03,\n",
+       "                       -1.12952981e-02,  4.46611550e-03,  9.25166160e-03,\n",
+       "                        9.00524389e-03,  8.10446404e-03,  1.75741222e-02,\n",
+       "                       -8.05154629e-03,  1.02305319e-02,  4.19014716e-04],\n",
+       "                      [ 1.16775753e-02, -1.46105085e-02, -3.06233508e-03,\n",
+       "                        6.35563117e-03, -1.24542378e-02, -3.08239786e-03,\n",
+       "                       -7.98272062e-03, -3.44542001e-04,  3.26864561e-03,\n",
+       "                       -1.17341252e-02,  1.21376979e-04,  1.80926919e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9969315 , 1.0359559 , 1.0315224 , 0.9849864 , 1.015801  ,\n",
+       "                       1.005627  , 0.9874842 , 0.9969067 , 0.99558216, 1.0109723 ,\n",
+       "                       1.0234433 , 0.9991636 , 0.9988123 , 1.0318247 , 1.0211638 ,\n",
+       "                       1.0181438 , 1.0320866 , 1.0064743 , 1.0121417 , 0.9712312 ,\n",
+       "                       1.0209255 , 1.0460172 , 0.99270165, 1.0035357 , 0.99127185,\n",
+       "                       1.0275663 , 1.0406407 , 0.99490535, 1.001791  , 0.9999673 ,\n",
+       "                       1.0058154 , 0.99693173, 0.9894646 , 1.0103531 , 1.0356901 ,\n",
+       "                       1.0126542 , 1.0072185 , 1.0374453 , 0.9751607 , 0.9979825 ,\n",
+       "                       1.0254827 , 0.99742836, 1.0186007 , 1.0166698 , 1.0066754 ,\n",
+       "                       1.015171  , 1.01679   , 1.00437   , 1.0015148 , 0.99255323,\n",
+       "                       1.0045346 , 1.0716761 , 1.0488757 , 0.999746  , 1.0062506 ,\n",
+       "                       1.023134  , 0.98512036, 1.000971  , 1.0161233 , 1.0405521 ,\n",
+       "                       1.0237843 , 0.9783412 , 1.0045804 , 1.0090035 , 1.0159477 ,\n",
+       "                       1.0154358 , 0.96614903, 1.0346043 , 1.0275455 , 1.0052668 ,\n",
+       "                       1.0063258 , 0.99357855, 0.9910557 , 1.0226693 , 1.0048059 ,\n",
+       "                       1.0167528 , 0.99693376, 1.0340425 , 1.0295672 , 1.0218896 ,\n",
+       "                       1.0248531 , 0.99951583, 1.007127  , 0.9905791 , 1.0054238 ,\n",
+       "                       1.0253313 , 1.0236849 , 0.9722623 , 1.0092759 , 0.9838695 ,\n",
+       "                       1.0091549 , 1.01045   , 0.99850976, 1.003939  , 1.0145742 ,\n",
+       "                       1.0122032 , 1.0363253 , 1.0223064 , 1.0261148 , 1.013842  ,\n",
+       "                       0.97486174, 1.0200647 , 1.01195   , 0.97909224, 1.0034782 ,\n",
+       "                       0.97253907, 0.9704656 , 1.0108095 , 1.019121  , 1.0319759 ,\n",
+       "                       1.0244851 , 1.0042377 , 1.0418612 , 1.0193982 , 0.98685116,\n",
+       "                       1.0076736 , 1.0171342 , 1.0051624 , 1.0157962 , 1.002355  ,\n",
+       "                       1.0048748 , 0.9854516 , 1.0005583 , 0.9929194 , 1.0041345 ,\n",
+       "                       0.99567336, 0.97145903, 1.014572  , 0.99024326, 1.0049794 ,\n",
+       "                       1.005694  , 1.0293807 , 1.0348918 , 0.98891205, 1.0214592 ,\n",
+       "                       1.0343784 , 0.9974625 , 1.0336651 , 1.0159554 , 1.009517  ,\n",
+       "                       1.0213977 , 1.017891  , 1.0457859 , 0.9782976 , 0.99135834,\n",
+       "                       1.0085051 , 1.0210464 , 0.99015844, 1.062849  , 1.0274574 ,\n",
+       "                       0.99645656, 1.0038768 , 1.0021027 , 1.0151567 , 1.0023288 ,\n",
+       "                       1.0051237 , 1.0334389 , 0.97966415, 1.0279682 , 1.0157349 ,\n",
+       "                       0.99453247, 1.0490587 , 1.0010473 , 0.978003  , 1.0055332 ,\n",
+       "                       1.0280823 , 1.0189446 , 1.0045984 , 1.0096755 , 1.0110795 ,\n",
+       "                       1.010487  , 1.0333279 , 1.0420829 , 1.0059249 , 0.994315  ,\n",
+       "                       1.057765  , 1.0192627 , 1.0429702 , 1.053575  , 1.0210158 ,\n",
+       "                       1.0225272 , 1.027447  , 0.9746826 , 1.0187615 , 1.0175383 ,\n",
+       "                       1.0171152 , 1.0221983 , 1.0156734 , 1.0274174 , 1.0035317 ,\n",
+       "                       1.023852  , 0.9781956 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-6.85399259e-03,  3.49939987e-02,  1.21939313e-02,  7.00289663e-03,\n",
+       "                       -2.84625012e-02,  1.08894687e-02,  1.14317602e-02,  5.31119877e-04,\n",
+       "                       -1.20807504e-02, -2.53669452e-02, -1.38663230e-02, -2.45413911e-02,\n",
+       "                        3.12566315e-03, -3.34403589e-02, -2.49050651e-02, -3.51863094e-02,\n",
+       "                       -3.06198839e-02, -1.66457202e-02, -2.35300343e-02,  9.21525061e-03,\n",
+       "                       -5.47070839e-02,  2.90595908e-02, -1.14936028e-02,  2.27075554e-02,\n",
+       "                       -9.33005102e-03, -1.04101971e-02,  4.68960702e-02, -2.82690041e-02,\n",
+       "                       -8.87826364e-03,  2.93897931e-02,  1.09149814e-02,  3.39894090e-03,\n",
+       "                        3.80432904e-02, -1.57318916e-02,  1.27893016e-02,  2.51961667e-02,\n",
+       "                        1.02447895e-02, -2.86124647e-02, -2.84046819e-03, -2.03090701e-02,\n",
+       "                        2.78504677e-02,  2.64279023e-02,  6.48994697e-03,  1.24164717e-02,\n",
+       "                        3.56704369e-02,  1.63176341e-03,  5.34731708e-03,  3.32465097e-02,\n",
+       "                       -1.84127502e-02,  7.83201400e-03, -1.57840957e-03,  6.27451017e-02,\n",
+       "                       -4.62098606e-02, -1.34509420e-02,  2.52033193e-02, -5.26064336e-02,\n",
+       "                       -3.50736752e-02, -2.23494507e-02,  1.18345963e-02,  4.26737703e-02,\n",
+       "                       -3.53784598e-02, -2.34259595e-03,  1.45399068e-02, -8.22275598e-03,\n",
+       "                        2.36013755e-02,  2.16632951e-02,  2.96655321e-03, -1.81439761e-02,\n",
+       "                       -3.52690704e-02,  2.45213807e-02, -2.36667562e-02,  1.55049330e-02,\n",
+       "                        3.03323995e-02,  1.42984604e-02,  1.54546760e-02,  3.63423787e-02,\n",
+       "                        1.28306113e-02,  3.05887386e-02,  3.71386148e-02, -3.07099824e-03,\n",
+       "                       -1.55997351e-02, -2.06704624e-02, -3.44661251e-03,  1.09177697e-02,\n",
+       "                       -1.73887815e-02,  3.64674553e-02, -2.63101477e-02,  4.08331072e-03,\n",
+       "                       -6.52079657e-03,  2.11077482e-02, -2.43641455e-02, -9.33902524e-03,\n",
+       "                       -2.14265306e-02,  2.64686197e-02,  1.49264745e-02,  7.82742165e-03,\n",
+       "                        6.50000235e-04, -4.15059663e-02,  1.89712290e-02, -1.90072544e-02,\n",
+       "                        1.46152293e-02,  4.48593870e-02, -1.28153572e-02,  3.75432638e-03,\n",
+       "                        1.98702887e-02, -2.83633708e-04,  8.32533929e-03,  9.34107229e-05,\n",
+       "                       -1.90886576e-03, -9.71705187e-03,  1.61674749e-02, -1.85295125e-03,\n",
+       "                        7.14225508e-03, -2.73624919e-02, -2.55387509e-03, -1.12724118e-03,\n",
+       "                        1.85906123e-02, -2.97149625e-02,  4.02317978e-02, -1.97510310e-02,\n",
+       "                        1.78207867e-02,  2.03406569e-02,  2.69312393e-02,  1.89924911e-02,\n",
+       "                        3.84589611e-03, -5.42263826e-03,  3.81167559e-03,  2.77643744e-02,\n",
+       "                        1.56566370e-02,  3.10532358e-02, -6.96316315e-03, -2.76779886e-02,\n",
+       "                        1.15464441e-03,  4.57731134e-04, -1.05021391e-02, -7.42463116e-03,\n",
+       "                       -3.92725272e-03, -4.03682962e-02, -3.32555297e-04, -1.48589090e-02,\n",
+       "                        2.83816513e-02, -5.50642144e-03,  3.29398774e-02, -6.12563780e-03,\n",
+       "                        4.73114895e-04,  1.87995285e-02,  4.34074178e-02,  7.52707245e-03,\n",
+       "                       -4.21776809e-02, -1.98691562e-02,  2.23468821e-02, -2.30735913e-02,\n",
+       "                       -3.02154068e-02, -1.44386357e-02, -2.66777873e-02, -2.04052161e-02,\n",
+       "                       -4.06471565e-02, -1.50648935e-03,  6.54783053e-03, -5.13115618e-03,\n",
+       "                        1.93733722e-02,  2.58082990e-02, -3.45452428e-02, -2.06032339e-02,\n",
+       "                        1.86892655e-02, -4.15844470e-02,  7.87161291e-03, -1.31361950e-02,\n",
+       "                        3.92404161e-02,  3.18503343e-02,  2.69362354e-03,  1.83110908e-02,\n",
+       "                       -2.87646055e-02, -3.88961025e-02, -1.27332853e-02,  1.51178809e-02,\n",
+       "                       -3.98628181e-03, -2.47202143e-02, -1.49840591e-02, -2.09513959e-02,\n",
+       "                        9.46386252e-03,  3.05391778e-03,  2.81525757e-02,  3.17124762e-02,\n",
+       "                       -1.79900415e-02, -5.57004847e-03, -2.40996070e-02, -4.68908390e-03,\n",
+       "                       -3.55240591e-02, -2.24711336e-02,  3.18121724e-02,  1.49385640e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.00378348,  0.0204091 ,  0.01135249, ..., -0.01550941,\n",
+       "                         0.00612383, -0.00509007],\n",
+       "                       [ 0.02067552,  0.01613462, -0.02470975, ...,  0.00266561,\n",
+       "                         0.0119758 ,  0.00032748],\n",
+       "                       [-0.00194279, -0.02958387,  0.00653261, ...,  0.00088051,\n",
+       "                        -0.01011066,  0.00685293],\n",
+       "                       ...,\n",
+       "                       [ 0.02418215, -0.00869673,  0.05250982, ..., -0.00619787,\n",
+       "                        -0.00458857, -0.00833396],\n",
+       "                       [ 0.02385004, -0.04703965,  0.05451006, ..., -0.00348573,\n",
+       "                        -0.02210503, -0.01034559],\n",
+       "                       [-0.02042757, -0.02202994,  0.01550441, ...,  0.00671552,\n",
+       "                         0.02117145, -0.0054143 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([ 1.21712941e-03,  1.11744599e-03, -1.39847826e-02, -4.46790047e-02,\n",
+       "                       -1.32631529e-02, -2.92864088e-02, -7.41573889e-03,  6.73092669e-03,\n",
+       "                        1.53066171e-03, -5.23377862e-03, -1.14760995e-02, -1.66477170e-02,\n",
+       "                       -4.09049494e-03, -1.08475713e-02, -2.35699415e-02,  3.27810459e-03,\n",
+       "                        1.12106688e-02, -1.67731475e-02,  3.39100137e-03,  4.08213399e-03,\n",
+       "                       -1.64552964e-02, -3.49954255e-02,  1.14198693e-03, -3.04259043e-02,\n",
+       "                       -4.51649614e-02,  9.18964390e-03, -6.32018456e-03,  1.50255440e-02,\n",
+       "                       -1.56057393e-02, -3.77505533e-02,  1.02112731e-02,  1.20568899e-02,\n",
+       "                        9.48533823e-04,  2.23602150e-02, -4.44539794e-04, -1.57161858e-02,\n",
+       "                        5.90274716e-03, -2.07363591e-02,  1.08804699e-04, -2.73037283e-03,\n",
+       "                       -5.21600954e-02, -2.77979579e-02,  3.28371464e-03, -5.89027768e-03,\n",
+       "                        1.54655073e-02,  9.94858565e-04, -8.03477783e-03, -5.80484048e-02,\n",
+       "                       -9.35775600e-03, -1.94576681e-02, -4.11564596e-02, -5.90110663e-03,\n",
+       "                        1.36351474e-02,  1.37825571e-02, -1.25644533e-02, -1.41049242e-02,\n",
+       "                        5.44565497e-03, -7.13166548e-03, -1.03337190e-03, -1.57395061e-02,\n",
+       "                        1.25784706e-02, -2.08498891e-02,  1.63245909e-02, -9.50962398e-03,\n",
+       "                        9.10767261e-03,  5.58687747e-03,  4.33255592e-03, -4.32211161e-03,\n",
+       "                        2.85559148e-03, -4.84286919e-02, -6.73415198e-04, -2.80464184e-03,\n",
+       "                        9.54244868e-04, -2.66200341e-02, -3.81675758e-03, -7.84792192e-03,\n",
+       "                       -1.45485466e-02,  2.05056788e-03,  1.86129361e-02, -6.48720283e-03,\n",
+       "                       -1.47726778e-02,  1.76946633e-02,  1.08199576e-02, -2.14629225e-03,\n",
+       "                       -6.79762010e-03, -4.92806686e-03, -3.61140966e-02, -3.56992008e-04,\n",
+       "                       -1.06048677e-02, -2.29637269e-02,  8.50004330e-03, -1.94537397e-02,\n",
+       "                        1.94888599e-02, -6.98236655e-03,  1.07396282e-02, -3.05227078e-02,\n",
+       "                       -2.00488232e-02,  7.70343048e-03,  3.34120169e-02, -8.79255310e-03,\n",
+       "                       -1.55596714e-02, -7.34469807e-03, -6.77908584e-03, -2.96232570e-02,\n",
+       "                       -1.22853303e-02, -1.17631704e-02,  3.26141194e-02,  1.06761511e-02,\n",
+       "                        2.18307804e-02,  2.30603595e-03, -5.68503002e-03,  6.37491373e-03,\n",
+       "                        9.27514117e-03,  1.26113594e-02, -1.67415049e-02,  9.93379671e-03,\n",
+       "                        6.58909651e-03, -3.54674971e-03, -2.77315476e-03, -4.64916788e-03,\n",
+       "                       -3.05924797e-03, -2.19699666e-02, -3.74519676e-02, -4.18436900e-02,\n",
+       "                       -1.65367890e-02, -1.44111924e-02,  8.43369053e-04, -1.62784513e-02,\n",
+       "                        2.01944634e-02, -7.64198182e-03, -3.98157444e-03, -3.42435646e-03,\n",
+       "                        3.35985981e-03,  1.19394138e-02, -9.76176281e-03,  4.34873346e-03,\n",
+       "                       -3.60846147e-02,  2.08347850e-02, -2.55428664e-02,  5.29307686e-03,\n",
+       "                        7.71038141e-03, -8.88793916e-03, -2.54604965e-02,  2.38521453e-02,\n",
+       "                       -2.18547843e-02,  3.36336158e-03, -2.14393474e-02, -7.10055977e-03,\n",
+       "                       -1.73013825e-02,  2.24922579e-02, -1.66900642e-02,  1.66960284e-02,\n",
+       "                        6.52999710e-03,  7.15585146e-03, -1.62478574e-02, -1.41648820e-03,\n",
+       "                        1.00488234e-02,  3.87262274e-03,  5.99228544e-03,  1.33825680e-02,\n",
+       "                        2.53655855e-03, -3.62779177e-03, -2.84535019e-03, -1.70501228e-02,\n",
+       "                        1.55098876e-02, -1.77575126e-02, -2.02389602e-02, -2.13988982e-02,\n",
+       "                       -1.37847895e-03,  1.25355367e-02,  8.04237928e-03,  6.47399691e-04,\n",
+       "                       -2.86702476e-02, -3.05145793e-03,  2.28235461e-02,  1.65228378e-02,\n",
+       "                       -1.78421922e-02, -8.96514859e-03,  1.25002535e-03, -8.40720348e-03,\n",
+       "                        1.28656700e-02, -3.27507257e-02, -2.82659996e-02,  1.39765022e-02,\n",
+       "                       -3.36523317e-02, -4.56795581e-02, -5.74486982e-03,  3.83558474e-03,\n",
+       "                        1.67551469e-02, -1.05215646e-02, -5.34546515e-03,  3.31974728e-03,\n",
+       "                       -1.74205303e-02, -1.74690187e-02, -6.83817489e-05, -1.24099236e-02,\n",
+       "                        5.46208676e-03,  1.31493127e-02, -7.69328931e-03,  9.23285075e-03,\n",
+       "                       -9.05792508e-03, -1.34851644e-02,  1.66751328e-03, -1.80504378e-03,\n",
+       "                        7.81689212e-03,  1.51372924e-02,  1.65556483e-02, -3.96846011e-02,\n",
+       "                       -1.06191784e-02, -1.21018719e-02, -3.75225544e-02, -4.54310281e-03,\n",
+       "                       -2.06056377e-03, -4.42739716e-03, -2.42362749e-02, -1.16142165e-02,\n",
+       "                       -1.25911944e-02,  2.55287276e-03, -8.17842083e-04, -2.07597595e-02,\n",
+       "                        3.08572371e-02, -4.24903259e-03,  1.95597857e-02,  1.33561976e-02,\n",
+       "                       -2.19328981e-02,  3.21771321e-03, -2.02778075e-02, -3.51373223e-03,\n",
+       "                       -3.29087935e-02,  3.64454114e-04,  1.57634746e-02, -9.44056921e-03,\n",
+       "                       -2.15312708e-02, -1.89597011e-02, -7.62946263e-04, -4.13846644e-03,\n",
+       "                        2.73370510e-03, -4.90105106e-03,  1.98669620e-02,  1.67902987e-02,\n",
+       "                        8.66163895e-03, -1.91626567e-02,  4.20852890e-03,  1.04909698e-02,\n",
+       "                       -9.93329939e-03,  6.97246706e-03, -1.75434034e-02, -1.98909435e-02,\n",
+       "                        6.95742760e-03, -2.06778403e-02, -1.35637140e-02,  2.72055157e-02,\n",
+       "                        1.02242995e-02,  1.31756882e-04,  5.80279715e-03,  2.92883627e-03,\n",
+       "                       -1.56155406e-02, -5.42097492e-03,  9.83800739e-03, -1.54213645e-02,\n",
+       "                        1.14859343e-02,  8.67995154e-03,  4.96590696e-03,  9.76129621e-03,\n",
+       "                       -3.31700221e-02,  8.64369981e-03, -1.86243858e-02, -7.16004241e-03,\n",
+       "                       -1.37374476e-02,  1.20013952e-02, -1.91051152e-03, -6.08156435e-03,\n",
+       "                       -1.75130498e-02, -5.35639301e-02,  1.58307776e-02, -1.81044228e-02,\n",
+       "                        2.49834335e-03,  4.17423155e-03, -2.53396686e-02,  1.46856969e-02,\n",
+       "                       -2.22624149e-02,  8.67950264e-03, -2.30857432e-02,  1.77531019e-02,\n",
+       "                        1.62986182e-02, -1.85275618e-02, -3.44653381e-03,  2.50066677e-03,\n",
+       "                       -4.63302433e-03,  8.05620942e-03, -1.76385753e-02,  2.49336511e-02,\n",
+       "                       -1.64703224e-02,  2.60244764e-04, -7.67652225e-03,  4.86556021e-03,\n",
+       "                       -4.83469814e-02, -1.27337119e-02, -1.92696191e-02, -2.72822492e-02,\n",
+       "                        5.47242071e-03, -1.16454146e-03,  1.35646807e-02,  1.00370515e-02,\n",
+       "                        9.59197991e-03, -3.18160839e-03, -2.19840482e-02, -2.08951300e-03,\n",
+       "                       -7.41670933e-03, -1.38713727e-02, -3.06752212e-02, -2.93379258e-02,\n",
+       "                       -1.01506848e-04, -1.31825907e-02,  8.28257762e-03,  2.29409393e-02,\n",
+       "                        1.04126334e-03,  1.24420030e-02,  2.03921460e-03,  3.19668208e-03,\n",
+       "                        1.63461957e-02, -2.01644730e-02,  1.15988161e-02,  1.46984840e-02,\n",
+       "                       -1.44577175e-02, -2.31328122e-02, -1.28451874e-02,  8.55914876e-03,\n",
+       "                        4.48380248e-04, -4.31475863e-02,  3.74619290e-03, -4.84132720e-03,\n",
+       "                        3.09969764e-03,  2.40912568e-02, -1.70390829e-02,  1.16004581e-02,\n",
+       "                        1.96048785e-02, -8.40850361e-03, -1.36118289e-02, -4.04037535e-03,\n",
+       "                       -8.99504311e-03,  1.45752728e-03, -1.71515364e-02, -2.67615989e-02,\n",
+       "                        2.85765361e-02, -2.18445025e-02,  2.68292148e-02,  1.94653422e-02,\n",
+       "                       -1.48401968e-02, -1.09210033e-02, -3.67749594e-02,  2.95452308e-03,\n",
+       "                        1.65821351e-02,  1.22377174e-02, -1.08304415e-02, -3.87950316e-02,\n",
+       "                        1.57719143e-02,  9.33526363e-03, -1.64565141e-03, -1.89905555e-03,\n",
+       "                        5.45689790e-03,  9.76760779e-03,  1.12611400e-02, -4.11848910e-03,\n",
+       "                        5.89184044e-03, -1.99133698e-02, -1.23440409e-02, -5.60856657e-03,\n",
+       "                        6.69311732e-04, -1.27601391e-02,  1.02170166e-02, -1.72962993e-02,\n",
+       "                       -6.78496994e-03, -1.96674056e-02,  1.11403549e-02, -3.00172754e-02,\n",
+       "                        1.86359212e-02,  1.79452356e-02, -2.69969227e-03,  7.34739378e-03,\n",
+       "                        2.32792739e-03, -1.85412634e-02,  1.82294555e-03, -2.54414720e-03,\n",
+       "                       -1.57666784e-02,  1.92940161e-02, -1.07259555e-02,  1.19666588e-02,\n",
+       "                       -2.25211051e-03,  1.81680697e-03, -3.47250630e-03, -9.40402783e-03,\n",
+       "                       -7.67046772e-03,  1.07285883e-02, -3.94243794e-03,  8.33209325e-03,\n",
+       "                        1.47054866e-02,  3.48920003e-02, -1.14637204e-02, -1.54867256e-03,\n",
+       "                       -4.01444919e-03,  2.25149244e-02, -9.72189568e-03,  1.13570466e-04,\n",
+       "                        2.40310710e-02, -2.67354939e-02, -5.41334227e-03,  2.85329465e-02,\n",
+       "                       -5.52699494e-04, -8.31121579e-04,  9.93520720e-04, -1.19860629e-02,\n",
+       "                       -3.63373831e-02,  2.90836431e-02,  1.69258043e-02, -1.38433175e-02,\n",
+       "                       -1.18911071e-02,  1.70295115e-03,  1.74647104e-03,  2.80275159e-02,\n",
+       "                       -4.80082491e-03, -2.78006736e-02,  7.48452544e-03,  4.70855914e-04,\n",
+       "                        1.40010659e-03, -4.33022331e-04, -6.01151987e-05,  3.57630779e-03,\n",
+       "                        2.56394409e-03,  2.71348306e-03, -2.88691302e-03, -2.72004027e-02,\n",
+       "                       -9.17448010e-03,  3.83244967e-03, -3.38208303e-02, -3.44089651e-03,\n",
+       "                       -7.52198882e-03,  4.73338878e-06, -1.09319473e-02, -2.54172180e-03,\n",
+       "                       -1.33185787e-03,  1.17676770e-02, -3.67837702e-03,  5.30108344e-03,\n",
+       "                        1.81533769e-02, -5.34134265e-03, -4.28129733e-02, -7.23955745e-04,\n",
+       "                        6.41434162e-05, -2.29048077e-02, -1.75935719e-02,  1.55059323e-02,\n",
+       "                        2.45801383e-03, -6.09927520e-05,  1.55003862e-02, -4.82059643e-02,\n",
+       "                       -6.13219046e-04, -1.29873790e-02, -1.17985131e-02, -1.36594269e-02,\n",
+       "                       -3.64093967e-02,  6.50251424e-03,  9.31435172e-03, -4.21814807e-03,\n",
+       "                       -6.24975096e-03, -2.04446837e-02, -6.86652865e-03, -2.78066806e-02,\n",
+       "                        8.10640771e-03, -9.03519150e-03,  8.32730252e-03, -8.23402777e-03,\n",
+       "                       -1.77198574e-02, -1.49527630e-02,  1.89031772e-02,  1.89668722e-02,\n",
+       "                       -2.32934374e-02, -2.54948549e-02,  5.30088274e-03,  7.84592266e-05,\n",
+       "                       -1.24219712e-02,  2.99021974e-02,  1.65144668e-03,  3.23658949e-03,\n",
+       "                        3.46182380e-03, -5.54047665e-03,  1.73629876e-02, -7.28723034e-03,\n",
+       "                       -8.10160127e-04, -3.61903966e-03, -3.78185362e-02, -1.07352436e-02,\n",
+       "                       -2.66686138e-02, -1.68437045e-02, -2.88786180e-02, -2.56704912e-02,\n",
+       "                       -9.99005884e-03, -2.59445347e-02,  3.15692485e-03,  1.21186450e-02,\n",
+       "                        7.68181751e-04,  1.01973154e-02, -2.93356571e-02,  2.74304189e-02,\n",
+       "                       -5.11944247e-03, -2.34087408e-02, -3.31219332e-03,  2.49027386e-02,\n",
+       "                       -2.99181864e-02, -4.30644071e-03, -4.84546721e-02,  1.37732318e-02,\n",
+       "                       -1.08511113e-02,  9.09818523e-03, -5.97642958e-02, -2.40001362e-03,\n",
+       "                       -2.44693402e-02, -2.61431150e-02, -5.63228130e-02, -5.69147766e-02,\n",
+       "                       -1.34355966e-02,  1.08059049e-02, -2.51438115e-02,  2.43897345e-02,\n",
+       "                        2.00368688e-02, -3.21862362e-02, -7.11673358e-03, -2.02482264e-03,\n",
+       "                        1.69970561e-02,  1.04994839e-02,  2.40762550e-02,  1.22807072e-02,\n",
+       "                        8.96592438e-03, -1.48127731e-02, -4.73734341e-04, -2.52799341e-03,\n",
+       "                        4.95032547e-03,  8.90917610e-03, -2.14294400e-02, -1.38719659e-02,\n",
+       "                       -7.85260927e-03, -2.72178762e-02, -7.67520443e-03,  7.45872548e-03,\n",
+       "                       -2.06694868e-03,  1.26448721e-02, -1.38665866e-02,  1.62336770e-02,\n",
+       "                       -1.89894938e-03,  2.43713753e-03, -3.50183845e-02, -2.78931893e-02,\n",
+       "                        8.56034085e-03, -2.59791454e-03, -1.73034631e-02, -2.86361184e-02,\n",
+       "                       -5.27288672e-03, -4.77060303e-03, -1.94337231e-03, -1.25429239e-02,\n",
+       "                        2.13629450e-03,  1.28392419e-02,  1.39512727e-02,  8.32761638e-03,\n",
+       "                        2.00579725e-02, -2.15874356e-03, -1.66641194e-02, -8.43333139e-04,\n",
+       "                       -2.06374768e-02, -4.71002935e-03, -3.87405567e-02,  4.49309405e-03,\n",
+       "                       -8.73806700e-03, -6.21388026e-04,  4.24497062e-03, -8.02812446e-03,\n",
+       "                       -1.94833558e-02,  1.42147695e-03, -1.47265205e-02, -1.60043798e-02,\n",
+       "                        1.58656407e-02, -2.53966227e-02, -8.12013913e-03,  1.92887418e-03,\n",
+       "                        1.36667909e-02, -5.50148962e-03,  3.92105430e-03, -1.55275753e-02,\n",
+       "                        1.08085116e-02,  5.63313160e-03,  6.38731057e-03, -1.17396507e-02,\n",
+       "                        3.83905647e-03,  2.81073805e-02, -1.32573741e-02, -1.12737311e-04,\n",
+       "                       -1.13992719e-02, -4.50117923e-02,  6.19430421e-03,  6.57175388e-03,\n",
+       "                        6.27242122e-03, -3.82218370e-03, -3.24477218e-02, -4.73353453e-03,\n",
+       "                        1.49306348e-02,  8.50765780e-03, -1.80551375e-03,  1.08695142e-02,\n",
+       "                       -1.91586670e-02, -8.83677322e-03, -2.01941133e-02, -2.03755405e-02,\n",
+       "                       -3.80617054e-03, -2.54426431e-02,  6.67224522e-05, -2.47236225e-04,\n",
+       "                        4.69957432e-03,  1.04258144e-02,  2.79125143e-02,  8.67276452e-03,\n",
+       "                        2.08652043e-03,  3.94323579e-04, -2.29147403e-03,  3.11773154e-03,\n",
+       "                       -8.63924809e-03, -4.87285014e-03,  1.04771433e-02,  8.81836843e-03,\n",
+       "                       -2.02935953e-02, -3.66574293e-03, -1.72846783e-02, -3.04471068e-02,\n",
+       "                        1.12433557e-03, -1.83333475e-02, -1.29820651e-03,  1.62148353e-04,\n",
+       "                       -3.05455755e-02,  8.47839937e-03, -2.97118854e-02,  2.02719774e-02,\n",
+       "                        3.47412797e-03, -2.69159861e-02, -5.54035010e-04, -2.95973988e-03,\n",
+       "                        4.54130163e-03, -5.08381939e-03, -2.05832124e-02,  3.78382839e-02,\n",
+       "                        2.99660265e-02, -5.05679334e-03, -6.64304430e-03, -1.09957159e-02,\n",
+       "                        1.51456976e-02,  8.22816882e-03,  1.49936322e-02,  1.32917576e-02,\n",
+       "                        1.46918762e-02,  1.61370391e-03,  2.04168055e-02,  9.69626475e-03,\n",
+       "                        4.14515613e-03,  2.26347093e-02,  1.49708344e-02,  1.28237531e-02,\n",
+       "                       -7.43865082e-03, -2.93543935e-02, -6.53200522e-02, -5.42526599e-03,\n",
+       "                        8.26254301e-03,  1.43309776e-03,  1.58000141e-02, -2.23250892e-02,\n",
+       "                        6.71493355e-03, -7.37267965e-03,  2.66001414e-04, -9.52360686e-03,\n",
+       "                       -6.70215394e-03,  7.12418137e-03,  1.52985044e-02, -3.28066535e-02,\n",
+       "                       -3.59565169e-02, -3.52373607e-02, -9.85178910e-03, -7.71370716e-03,\n",
+       "                        7.25477934e-03, -3.71771082e-02, -1.37529597e-02, -4.51815017e-02,\n",
+       "                       -2.23332271e-03, -1.54914130e-02,  2.34068185e-02, -1.42283523e-02,\n",
+       "                        5.88655705e-03, -1.76403560e-02,  2.16605188e-03,  5.97196119e-03,\n",
+       "                       -1.72784999e-02,  5.36067924e-03, -3.19605507e-02,  4.08004504e-03,\n",
+       "                       -4.14101686e-03, -1.85644794e-02,  2.51514055e-02, -1.67821962e-02,\n",
+       "                        2.56560054e-02, -3.78645360e-02, -1.02061154e-02, -3.53764705e-02,\n",
+       "                       -1.55158835e-02, -4.76077432e-03, -1.36364102e-02, -3.05698207e-03,\n",
+       "                        4.68083797e-03, -1.94948856e-02,  2.15629041e-02,  3.09187896e-03,\n",
+       "                       -1.74710117e-02, -4.33999151e-02, -2.63247490e-02,  2.02457421e-02,\n",
+       "                        1.12916930e-02, -3.16064805e-02,  1.14372261e-02, -1.09964097e-02,\n",
+       "                        1.48417773e-02, -7.04414956e-03, -4.30010892e-02,  3.89331649e-03,\n",
+       "                        2.49399785e-02, -1.83765758e-02, -8.07058811e-03, -2.50721220e-02,\n",
+       "                       -9.01548192e-04,  1.44568430e-02,  1.21710286e-03,  5.64520387e-03,\n",
+       "                       -2.09744815e-02,  5.01332525e-03, -5.36186248e-03,  9.06061789e-04,\n",
+       "                        6.38368493e-03, -1.53965401e-02,  9.75043606e-03,  4.15975507e-03,\n",
+       "                        7.27052800e-03, -1.92049742e-02,  3.18862149e-03,  1.27868410e-02,\n",
+       "                       -1.57332923e-02, -2.91440031e-03, -9.26277880e-03,  1.98450387e-02,\n",
+       "                       -2.40688492e-02,  6.82184240e-03,  1.29345879e-02, -4.33823327e-03,\n",
+       "                       -2.22863276e-02,  2.80247885e-03,  1.14938861e-03, -1.31881731e-02,\n",
+       "                       -5.79492599e-02, -1.34389708e-02, -3.96496430e-02, -6.93540508e-03,\n",
+       "                        2.13500988e-02,  7.80632207e-03, -6.45534089e-03, -1.40285550e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.00052601, -0.00091733, -0.01139702, ...,  0.00473077,\n",
+       "                        -0.00057246, -0.00768256],\n",
+       "                       [ 0.00977903, -0.00192228, -0.01191035, ...,  0.00261494,\n",
+       "                        -0.01204226,  0.00491333],\n",
+       "                       [-0.01176421, -0.03240357, -0.02388848, ..., -0.01289275,\n",
+       "                         0.05155848,  0.02732125],\n",
+       "                       ...,\n",
+       "                       [ 0.00684952, -0.03641722, -0.01548092, ...,  0.02650181,\n",
+       "                         0.00601252,  0.01533274],\n",
+       "                       [ 0.00579466, -0.0222997 ,  0.01490036, ..., -0.01592839,\n",
+       "                        -0.00955954, -0.02380987],\n",
+       "                       [-0.00343813, -0.00589791, -0.01730914, ...,  0.00521022,\n",
+       "                        -0.00768803, -0.0075852 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-1.28697157e-02,  1.56626326e-03,  2.25128457e-02,  1.23283323e-02,\n",
+       "                       -6.11981750e-03,  3.96887632e-03,  3.51140695e-03,  3.42887337e-03,\n",
+       "                       -1.16077121e-02, -2.31974386e-02, -6.31319685e-03, -1.61810145e-02,\n",
+       "                        7.03598955e-04, -3.46243158e-02, -6.75723050e-03, -3.32775265e-02,\n",
+       "                       -3.23656090e-02, -2.12191250e-02, -2.66066119e-02, -1.05098393e-02,\n",
+       "                       -2.23392900e-02,  4.56696609e-03, -1.92382205e-02,  2.19231639e-02,\n",
+       "                       -4.03383654e-03, -9.16029618e-04,  2.79391725e-02, -1.40444925e-02,\n",
+       "                        9.45466105e-03,  2.78000422e-02,  2.44674156e-03, -1.10390398e-03,\n",
+       "                        3.16991471e-02, -1.06008239e-02,  1.30848903e-02,  2.52418164e-02,\n",
+       "                        1.40522709e-02, -2.37777587e-02, -3.68189067e-03,  4.97014029e-04,\n",
+       "                        1.74174104e-02,  1.04839979e-02, -2.69745057e-03,  4.99991793e-03,\n",
+       "                        3.34201194e-02, -5.77967055e-03,  5.42377122e-03,  1.50190340e-02,\n",
+       "                       -2.74546016e-02,  7.14053120e-03, -3.73244775e-03,  3.75339612e-02,\n",
+       "                       -3.71782817e-02, -5.57640428e-03,  2.10267361e-02, -3.58375274e-02,\n",
+       "                       -3.72432754e-03, -1.87591556e-02,  1.12272957e-02,  3.31541970e-02,\n",
+       "                       -2.46070866e-02, -4.36177012e-03,  1.32657085e-02, -1.26082338e-02,\n",
+       "                        1.87053643e-02,  1.70804709e-02,  1.33639071e-02, -1.90669075e-02,\n",
+       "                       -1.29393823e-02,  1.90141499e-02, -1.11113507e-02,  8.58172216e-03,\n",
+       "                        2.49483865e-02,  1.24078095e-02,  1.06699467e-02,  1.13949152e-02,\n",
+       "                        1.65756866e-02,  2.97233220e-02,  2.61469726e-02, -1.11253718e-02,\n",
+       "                       -2.03499384e-02, -2.30461136e-02,  1.52888778e-03,  3.20105348e-03,\n",
+       "                       -9.56892036e-03,  1.25000197e-02, -1.73106156e-02,  1.35570867e-02,\n",
+       "                        5.73282829e-04,  2.49358434e-02, -1.41815478e-02,  3.60490708e-03,\n",
+       "                       -5.09327091e-03,  7.10161589e-03,  1.12671433e-02,  2.82256369e-05,\n",
+       "                       -1.35730754e-03, -3.16210911e-02,  1.23561407e-02, -1.58919953e-02,\n",
+       "                        6.86849281e-03,  1.74242146e-02, -1.18547864e-02,  2.29167519e-03,\n",
+       "                        1.86833702e-02, -3.04882269e-04,  3.55654978e-03,  1.38436528e-02,\n",
+       "                       -7.21841678e-03,  4.40225657e-03,  8.65148474e-03,  5.37445256e-03,\n",
+       "                        1.36929452e-02, -8.82796571e-03,  2.56787357e-03, -1.14671309e-02,\n",
+       "                        2.40873136e-02, -2.66355798e-02,  6.69640210e-03, -1.01693552e-02,\n",
+       "                        1.75453555e-02,  7.63980485e-03,  1.95996501e-02, -5.47533808e-03,\n",
+       "                        1.52602233e-02, -9.54087451e-03,  2.50047026e-03,  1.87017508e-02,\n",
+       "                        1.49874371e-02,  2.26895958e-02, -1.91373024e-02, -2.82493141e-02,\n",
+       "                       -2.49937293e-03,  7.17947073e-03, -1.85740720e-02,  1.69082712e-02,\n",
+       "                       -7.14652846e-03, -2.10556984e-02,  1.28920283e-02, -1.23076010e-02,\n",
+       "                        2.80572921e-02, -5.43307746e-03,  1.29268924e-02,  2.33644992e-03,\n",
+       "                       -1.01666187e-03,  4.56599984e-03,  3.91974896e-02,  1.07824057e-02,\n",
+       "                       -2.94113643e-02, -2.30929591e-02,  2.04315297e-02, -1.43474080e-02,\n",
+       "                       -1.33732483e-02, -5.68833202e-03, -1.43602882e-02, -1.85296349e-02,\n",
+       "                       -2.66867913e-02,  1.13412656e-03, -5.38206520e-03,  6.23613782e-03,\n",
+       "                        1.70935206e-02,  1.38554061e-02, -2.49322355e-02, -1.04984548e-02,\n",
+       "                        2.00184267e-02, -2.85697710e-02,  7.44458474e-03, -1.23284226e-02,\n",
+       "                        1.01375710e-02,  3.18448953e-02, -2.56668800e-03,  2.41091419e-02,\n",
+       "                       -2.23143548e-02, -3.50988880e-02, -1.33587681e-02,  1.70347169e-02,\n",
+       "                        3.36722308e-03, -2.06941124e-02, -7.01428344e-03, -1.55244842e-02,\n",
+       "                       -7.21133361e-03, -1.65471155e-03,  1.15091950e-02,  1.58406775e-02,\n",
+       "                       -1.95811503e-02, -1.25027495e-02, -2.45968197e-02, -1.35051878e-02,\n",
+       "                       -2.95459423e-02, -1.77637059e-02,  1.02170315e-02,  1.12621617e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (2): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0057871 , 1.0332363 , 1.0212928 , 0.9999723 , 1.033825  ,\n",
+       "                       1.0029198 , 1.0058116 , 1.0149196 , 1.0082165 , 1.0243226 ,\n",
+       "                       1.0096213 , 0.99784964, 1.0176283 , 1.043794  , 1.027943  ,\n",
+       "                       1.0534654 , 1.0061653 , 0.98920953, 1.0062771 , 0.97829   ,\n",
+       "                       1.0035368 , 1.0533798 , 1.0020728 , 1.0023332 , 1.0052046 ,\n",
+       "                       1.0174168 , 1.1191556 , 1.0025481 , 1.0015385 , 1.017479  ,\n",
+       "                       1.018475  , 0.9849396 , 0.97287726, 1.0402071 , 1.0285083 ,\n",
+       "                       1.0055572 , 1.0146956 , 1.0404365 , 1.0037504 , 1.0148568 ,\n",
+       "                       1.0283828 , 0.99278283, 1.0248725 , 1.022264  , 1.0001345 ,\n",
+       "                       1.0017784 , 1.0346408 , 0.9981527 , 1.0122838 , 0.98120767,\n",
+       "                       1.0215337 , 1.179416  , 1.0340352 , 1.0046171 , 1.024731  ,\n",
+       "                       1.0585825 , 0.98917764, 0.9997533 , 1.0075992 , 1.0392004 ,\n",
+       "                       1.0552956 , 0.9886238 , 1.023406  , 1.0362253 , 1.0081662 ,\n",
+       "                       1.0156927 , 0.9865759 , 1.0417926 , 1.0455471 , 1.0137287 ,\n",
+       "                       1.0280967 , 1.0077677 , 0.99449986, 1.0082475 , 1.0126015 ,\n",
+       "                       1.0092647 , 1.0124716 , 1.0199153 , 1.0341136 , 1.0260425 ,\n",
+       "                       1.0281512 , 1.024284  , 1.0110937 , 1.0095159 , 1.0170563 ,\n",
+       "                       1.0178514 , 1.039387  , 0.99133825, 1.0179511 , 0.9966715 ,\n",
+       "                       1.0261171 , 1.0154284 , 1.015804  , 1.0061381 , 1.0099896 ,\n",
+       "                       1.0000523 , 1.0007659 , 1.0363859 , 1.0635108 , 1.014356  ,\n",
+       "                       0.98796177, 1.030319  , 1.0046592 , 0.97458965, 1.0108676 ,\n",
+       "                       0.9928793 , 0.9558847 , 0.9925133 , 1.0085704 , 1.0427246 ,\n",
+       "                       1.0145886 , 1.0274279 , 1.0207925 , 1.0429372 , 1.0046413 ,\n",
+       "                       1.0268769 , 1.0306258 , 0.99699676, 1.0163515 , 0.9908004 ,\n",
+       "                       1.0140766 , 0.9912396 , 1.0172839 , 1.0117    , 1.0167714 ,\n",
+       "                       0.99298805, 0.9969487 , 1.0303023 , 0.9882936 , 1.0046637 ,\n",
+       "                       1.016881  , 1.0134546 , 1.0471387 , 0.99485767, 1.011368  ,\n",
+       "                       1.0557008 , 0.9968898 , 1.0360297 , 1.0016598 , 1.0374504 ,\n",
+       "                       1.0292593 , 1.0112805 , 1.0623062 , 0.98729765, 1.0029736 ,\n",
+       "                       1.031483  , 1.0078738 , 0.99074715, 1.0818259 , 1.0101855 ,\n",
+       "                       0.9861434 , 1.004235  , 1.0262736 , 1.0209796 , 1.001568  ,\n",
+       "                       1.0096675 , 1.0404271 , 0.9835611 , 1.0241301 , 1.0369594 ,\n",
+       "                       1.0074248 , 1.0424756 , 0.9942452 , 0.99875724, 1.033678  ,\n",
+       "                       1.0853536 , 1.0074345 , 1.0366769 , 1.0091823 , 1.0067376 ,\n",
+       "                       1.0233204 , 1.0372906 , 1.0645523 , 0.9926111 , 1.0274863 ,\n",
+       "                       1.041852  , 1.0358343 , 1.0027225 , 1.0693008 , 1.0230322 ,\n",
+       "                       1.0631505 , 1.0215074 , 0.9722386 , 1.0141385 , 1.025084  ,\n",
+       "                       1.0470202 , 1.0165733 , 1.0124934 , 1.0319704 , 1.0043234 ,\n",
+       "                       1.0158199 , 0.99025494], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 7.59856217e-03,  4.24561910e-02,  7.99102522e-03,  1.71857737e-02,\n",
+       "                       -1.03637101e-02,  3.16838245e-03,  3.60901840e-03,  4.19523055e-03,\n",
+       "                       -6.87508844e-03, -6.87943026e-03, -5.10497158e-03, -8.22180882e-03,\n",
+       "                        8.77292734e-03, -2.58738408e-03, -2.08214354e-02, -1.79159064e-02,\n",
+       "                       -1.11684657e-03, -7.38986069e-04, -1.19412383e-02,  1.42388390e-02,\n",
+       "                       -1.66760180e-02,  2.08622776e-03, -2.57751974e-03, -8.82026181e-03,\n",
+       "                        1.15794945e-03, -1.44918431e-02,  4.93793860e-02, -3.27913207e-03,\n",
+       "                       -4.28729737e-03, -4.89461794e-03,  1.88506544e-02, -6.22330047e-03,\n",
+       "                        4.18603653e-03, -1.38241351e-02,  1.14280488e-02, -2.84738315e-04,\n",
+       "                        8.89829081e-03, -1.11413759e-03,  4.17278428e-03, -1.35365466e-03,\n",
+       "                        1.28041944e-02,  1.15375938e-02, -6.41845446e-03,  9.64137726e-03,\n",
+       "                        2.59947684e-03, -4.25522914e-03,  9.96628869e-03,  1.62370726e-02,\n",
+       "                        7.52341375e-03, -9.28277243e-03,  5.81439584e-03,  7.83476010e-02,\n",
+       "                       -6.71153562e-03,  2.24725250e-03,  2.08039153e-02, -5.01795486e-02,\n",
+       "                       -1.73597485e-02, -8.89169611e-03,  7.42495526e-04,  6.78870874e-03,\n",
+       "                       -3.18759643e-02,  1.50445709e-03, -3.69086815e-03,  6.01144927e-03,\n",
+       "                        3.52614955e-03,  2.10542441e-03, -3.93726258e-03, -9.05793067e-03,\n",
+       "                       -5.51527715e-04, -4.15784819e-03, -1.57790836e-02,  1.25657795e-02,\n",
+       "                        5.08130435e-03,  6.50481321e-03,  1.63632873e-02,  1.73130240e-02,\n",
+       "                       -2.43367138e-03,  1.85030117e-03,  1.54299662e-03, -5.31600381e-05,\n",
+       "                        1.75052956e-02,  1.71876000e-03,  4.45382996e-03, -4.30531753e-03,\n",
+       "                       -1.16280653e-02,  2.11134292e-02, -2.23673265e-02,  7.13334139e-03,\n",
+       "                       -1.41991712e-02, -1.31303091e-02, -1.44726951e-02, -8.39852076e-03,\n",
+       "                       -1.02737797e-02,  2.51649469e-02, -2.17619655e-03,  3.18338871e-02,\n",
+       "                        6.02364819e-03, -3.28926258e-02,  8.89856555e-03, -1.79745432e-03,\n",
+       "                        6.78307377e-03,  1.72448792e-02, -1.61184631e-02,  7.45668355e-03,\n",
+       "                        1.26204602e-02,  9.98649187e-03,  2.81444062e-02,  2.30935658e-03,\n",
+       "                       -1.77086389e-03, -1.28207710e-02,  8.45415145e-03, -3.29405675e-03,\n",
+       "                       -5.72317652e-03, -2.71530338e-02, -1.77807845e-02,  1.11351041e-02,\n",
+       "                       -1.00642750e-02, -1.56395938e-02,  3.36114839e-02, -1.72200203e-02,\n",
+       "                       -9.74771846e-03,  3.32418010e-02, -1.05427857e-02,  2.02785395e-02,\n",
+       "                       -6.68006064e-03,  2.28713281e-04, -8.21154565e-03,  3.10888048e-02,\n",
+       "                       -4.19865269e-03,  6.00909209e-03, -7.54437642e-03, -5.50453411e-03,\n",
+       "                        1.89670883e-02, -1.07095791e-02,  5.02277690e-04,  7.32586626e-03,\n",
+       "                       -4.09575505e-03, -2.85738874e-02,  2.87018227e-03, -2.15759897e-03,\n",
+       "                        1.81071796e-02, -6.09889021e-03,  1.60865113e-02, -8.74181185e-03,\n",
+       "                        1.72416996e-02,  8.38244241e-03,  1.15022238e-03,  1.16248718e-02,\n",
+       "                       -2.85649057e-02, -9.58522037e-03, -8.16637039e-05, -2.19359994e-02,\n",
+       "                       -3.00931241e-02, -4.67210496e-03, -2.23919563e-02, -7.52190128e-03,\n",
+       "                       -1.04973540e-02, -8.82059149e-03,  3.65124480e-03, -1.63061526e-02,\n",
+       "                       -3.07336613e-03,  4.76394920e-03, -7.85821769e-03, -1.34929726e-02,\n",
+       "                        9.88984201e-03, -6.62930831e-02, -1.58152245e-02, -1.60966665e-02,\n",
+       "                        1.41415140e-02,  1.45050827e-02, -1.96240973e-04, -7.24124722e-04,\n",
+       "                       -1.78274736e-02, -6.59982441e-03,  8.05374142e-03,  1.00671398e-02,\n",
+       "                       -9.55150276e-03, -6.95818989e-03, -2.66786981e-02, -1.08323013e-02,\n",
+       "                        7.38756062e-05,  1.03484967e-03,  1.49620511e-02,  2.81481780e-02,\n",
+       "                        4.79391264e-03,  6.22483063e-03, -3.92652489e-03,  5.56191429e-03,\n",
+       "                       -9.80110746e-03, -1.08523564e-02,  2.62236502e-02, -4.83083492e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.06234125,  0.08348493,  0.05271349, ..., -0.04905114,\n",
+       "                        0.06002877,  0.07014746],\n",
+       "                      [ 0.01078404,  0.01441736, -0.00631271, ..., -0.00126975,\n",
+       "                       -0.00407829, -0.02982283],\n",
+       "                      [ 0.02175241,  0.07973423, -0.02206543, ..., -0.10772092,\n",
+       "                       -0.12188936,  0.01044118],\n",
+       "                      ...,\n",
+       "                      [ 0.00032629,  0.03708308, -0.06995119, ..., -0.02210348,\n",
+       "                       -0.03649073,  0.04809769],\n",
+       "                      [ 0.01826541,  0.00481216,  0.01058115, ..., -0.01575439,\n",
+       "                       -0.01393961,  0.00625093],\n",
+       "                      [-0.02408669,  0.05260627,  0.03774166, ..., -0.01596219,\n",
+       "                        0.05104807,  0.03937525]],\n",
+       "              \n",
+       "                     [[ 0.02779769, -0.03340751, -0.01536217, ...,  0.06302352,\n",
+       "                        0.0216154 , -0.00151173],\n",
+       "                      [-0.00963598,  0.02632163, -0.05148864, ..., -0.00842124,\n",
+       "                       -0.04520626,  0.06177414],\n",
+       "                      [-0.03409315,  0.00782742,  0.01486818, ...,  0.05234182,\n",
+       "                       -0.03087698, -0.05324713],\n",
+       "                      ...,\n",
+       "                      [ 0.02451777, -0.06283689,  0.03903849, ...,  0.02784257,\n",
+       "                        0.0149576 , -0.03789261],\n",
+       "                      [ 0.02468628,  0.0147682 ,  0.01011168, ...,  0.00017318,\n",
+       "                        0.00441966, -0.02091843],\n",
+       "                      [ 0.04509341, -0.02262525,  0.06885201, ..., -0.072127  ,\n",
+       "                       -0.02234302, -0.02799728]],\n",
+       "              \n",
+       "                     [[-0.02003128, -0.02902497, -0.02048736, ...,  0.00256414,\n",
+       "                       -0.02856174,  0.02460355],\n",
+       "                      [-0.02152068, -0.01040548, -0.00720556, ...,  0.02811522,\n",
+       "                       -0.03958235,  0.06043673],\n",
+       "                      [-0.00299573, -0.05975921,  0.02358114, ...,  0.01305199,\n",
+       "                        0.06924431,  0.01198481],\n",
+       "                      ...,\n",
+       "                      [-0.01442131, -0.01633287,  0.06204606, ...,  0.03050506,\n",
+       "                        0.00815727, -0.05987699],\n",
+       "                      [-0.00394178,  0.01078314,  0.0028196 , ..., -0.00517203,\n",
+       "                        0.02769065, -0.00503104],\n",
+       "                      [ 0.03049225, -0.01576989,  0.00254666, ..., -0.02251267,\n",
+       "                       -0.03106628, -0.01190897]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00339118, -0.03024405, -0.03525003, ..., -0.0079357 ,\n",
+       "                        0.00962144,  0.02216074],\n",
+       "                      [ 0.06947004, -0.06062919,  0.04593202, ...,  0.04568027,\n",
+       "                        0.05047652, -0.05793334],\n",
+       "                      [ 0.11836407,  0.06272735,  0.00067443, ...,  0.00550534,\n",
+       "                        0.03630037, -0.02081595],\n",
+       "                      ...,\n",
+       "                      [-0.06524166,  0.02345604, -0.01313383, ..., -0.03301872,\n",
+       "                       -0.03735002,  0.00037564],\n",
+       "                      [-0.03938673, -0.03632034,  0.00092862, ...,  0.01558411,\n",
+       "                       -0.00075396,  0.0101775 ],\n",
+       "                      [-0.04090933,  0.01356268, -0.04852635, ..., -0.00499562,\n",
+       "                        0.02987474,  0.02531883]],\n",
+       "              \n",
+       "                     [[ 0.01056831, -0.04749409, -0.03694331, ...,  0.05555313,\n",
+       "                       -0.00110841, -0.0184141 ],\n",
+       "                      [-0.00554059,  0.0175445 , -0.01705179, ...,  0.00723137,\n",
+       "                       -0.03601098, -0.01009218],\n",
+       "                      [-0.0150836 ,  0.00666366,  0.06633871, ...,  0.04543896,\n",
+       "                       -0.02726434, -0.06670793],\n",
+       "                      ...,\n",
+       "                      [ 0.00740686, -0.07095704,  0.01820407, ...,  0.01863899,\n",
+       "                       -0.00714878, -0.04596868],\n",
+       "                      [ 0.01260169,  0.03565225, -0.01171624, ..., -0.02946363,\n",
+       "                        0.00646609, -0.01957519],\n",
+       "                      [-0.0440557 ,  0.07693814,  0.07808633, ..., -0.05995817,\n",
+       "                        0.04248045,  0.05745625]],\n",
+       "              \n",
+       "                     [[-0.07753773, -0.07089977, -0.07884057, ...,  0.02975712,\n",
+       "                       -0.08073553, -0.0621541 ],\n",
+       "                      [-0.00550022,  0.0085198 , -0.06444216, ...,  0.03531897,\n",
+       "                       -0.05257558,  0.05456509],\n",
+       "                      [-0.04056812, -0.09348527,  0.0530269 , ...,  0.11246442,\n",
+       "                        0.15517569, -0.06778258],\n",
+       "                      ...,\n",
+       "                      [ 0.02758401, -0.00359426,  0.04186517, ...,  0.01238764,\n",
+       "                        0.02573269, -0.01919786],\n",
+       "                      [ 0.00237221,  0.01049417,  0.01227861, ..., -0.01254319,\n",
+       "                        0.01223521,  0.01139719],\n",
+       "                      [ 0.02927969, -0.0667349 ,  0.00143145, ..., -0.01885801,\n",
+       "                       -0.04819303, -0.0389314 ]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-3.94772254e-02, -6.41306937e-02, -4.13827300e-02, ...,\n",
+       "                        3.15646194e-02, -3.12801488e-02, -2.09214948e-02],\n",
+       "                      [-4.11971509e-02,  4.98755760e-02,  1.32313436e-02, ...,\n",
+       "                       -4.50457074e-02, -3.14410054e-03,  1.69730727e-02],\n",
+       "                      [-2.37825289e-02, -3.33431289e-02, -3.15161385e-02, ...,\n",
+       "                        2.36281566e-02,  5.52808158e-02,  3.62378657e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.09275335e-02, -3.74232717e-02,  5.80713265e-02, ...,\n",
+       "                        2.71868668e-02,  2.72399876e-02, -3.90068926e-02],\n",
+       "                      [-2.15795711e-02, -8.08936171e-03,  2.82208771e-02, ...,\n",
+       "                        1.46864895e-02, -9.80850868e-03,  2.31318623e-02],\n",
+       "                      [ 2.45238580e-02, -4.93060239e-02, -2.00063130e-03, ...,\n",
+       "                        1.31882494e-02, -1.79088470e-02, -4.58018892e-02]],\n",
+       "              \n",
+       "                     [[-4.79925536e-02, -7.13883620e-03, -1.70200616e-02, ...,\n",
+       "                        4.30573616e-03, -2.58588381e-02, -4.00255322e-02],\n",
+       "                      [ 2.06479542e-02, -9.69429209e-04,  4.45427969e-02, ...,\n",
+       "                       -3.11642475e-02,  4.58971709e-02, -6.06159568e-02],\n",
+       "                      [-2.16270816e-02, -2.47788690e-02,  8.99176486e-03, ...,\n",
+       "                       -3.50549109e-02,  2.83869740e-04,  2.76593976e-02],\n",
+       "                      ...,\n",
+       "                      [-9.84367728e-03,  4.42362092e-02, -3.88747454e-02, ...,\n",
+       "                       -3.33305337e-02, -1.39302714e-02,  3.08513269e-02],\n",
+       "                      [ 9.72330163e-05,  3.61726678e-04, -2.07237955e-02, ...,\n",
+       "                       -9.40586999e-03,  1.05890594e-02,  4.07860382e-03],\n",
+       "                      [-4.40552495e-02,  3.58287096e-02, -3.81228030e-02, ...,\n",
+       "                        6.48950562e-02,  5.46173677e-02,  2.66422555e-02]],\n",
+       "              \n",
+       "                     [[ 1.22328307e-02, -1.93379074e-02, -5.46430354e-04, ...,\n",
+       "                        2.66239718e-02,  6.38371892e-03, -1.59700308e-02],\n",
+       "                      [ 1.72801521e-02, -1.16762826e-02, -1.04958480e-02, ...,\n",
+       "                        1.92294214e-02,  3.55268340e-03, -2.62587853e-02],\n",
+       "                      [-6.89166319e-03,  3.61419693e-02,  1.63935386e-02, ...,\n",
+       "                        2.16508824e-02, -4.29583341e-02, -4.16333824e-02],\n",
+       "                      ...,\n",
+       "                      [-4.65792557e-03, -7.89630506e-03,  1.71894040e-02, ...,\n",
+       "                        9.70898382e-03, -6.56816317e-03, -1.70818679e-02],\n",
+       "                      [ 2.78675579e-03,  2.10756604e-02, -1.41859008e-02, ...,\n",
+       "                       -1.24089019e-02,  1.63065996e-02, -1.41478134e-02],\n",
+       "                      [-2.85000205e-02,  3.22563052e-02, -3.39996041e-05, ...,\n",
+       "                        4.72247694e-03,  2.15071123e-02,  1.35786245e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 2.42358502e-02,  5.12744300e-02,  4.75583598e-02, ...,\n",
+       "                        2.62557948e-03,  2.60219891e-02, -4.89659782e-04],\n",
+       "                      [-1.37466248e-02,  2.39855181e-02, -4.84416597e-02, ...,\n",
+       "                       -3.52280214e-02, -2.97512561e-02,  9.76292882e-03],\n",
+       "                      [-5.24343699e-02, -1.95866022e-02,  1.47199852e-03, ...,\n",
+       "                       -4.41279216e-03, -8.53088200e-02,  1.96372997e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.60169592e-02, -1.12776738e-03,  1.79300662e-02, ...,\n",
+       "                        3.84874344e-02,  2.32992452e-02, -2.62540132e-02],\n",
+       "                      [ 2.83117890e-02,  4.90925834e-02, -3.87031138e-02, ...,\n",
+       "                       -1.95439383e-02,  1.16576357e-02, -4.29532193e-02],\n",
+       "                      [ 1.17599946e-02,  1.08255483e-02,  4.30425294e-02, ...,\n",
+       "                       -8.63413513e-03,  8.09687935e-03, -1.47575168e-02]],\n",
+       "              \n",
+       "                     [[-2.11161710e-02,  6.08768780e-03, -1.51375579e-02, ...,\n",
+       "                       -3.95964719e-02, -7.04731699e-03, -1.02093741e-02],\n",
+       "                      [-6.73621707e-03,  4.62087430e-03,  8.06042086e-03, ...,\n",
+       "                        1.11963777e-02, -1.01704914e-02,  2.15507653e-02],\n",
+       "                      [-1.29628582e-02, -3.79046947e-02,  3.97373326e-02, ...,\n",
+       "                        1.78747326e-02,  2.81659290e-02, -4.53772619e-02],\n",
+       "                      ...,\n",
+       "                      [-1.97285041e-02,  2.54876073e-02, -4.10858989e-02, ...,\n",
+       "                       -1.10911569e-02, -7.09744217e-03,  2.43405420e-02],\n",
+       "                      [-3.26183736e-02, -3.64847258e-02,  2.64330506e-02, ...,\n",
+       "                       -2.24458892e-03,  2.19186093e-03,  3.57530229e-02],\n",
+       "                      [ 3.74469198e-02, -4.28201444e-02, -8.65745079e-03, ...,\n",
+       "                       -1.68640856e-02, -5.06263934e-02, -5.84868081e-02]],\n",
+       "              \n",
+       "                     [[ 2.95374412e-02,  2.48611113e-03,  5.80458995e-03, ...,\n",
+       "                        2.90872622e-02,  4.03674766e-02, -1.68689992e-02],\n",
+       "                      [ 2.24053338e-02, -1.48960911e-02,  6.33362308e-03, ...,\n",
+       "                        4.86489423e-02,  7.50374282e-03, -4.05806713e-02],\n",
+       "                      [ 2.55827680e-02,  1.85767263e-02,  2.60028038e-02, ...,\n",
+       "                       -1.36788404e-02, -7.14080334e-02, -1.08517408e-02],\n",
+       "                      ...,\n",
+       "                      [-4.35072295e-02, -3.15411463e-02, -2.18501817e-02, ...,\n",
+       "                       -3.80530059e-02, -5.09869009e-02, -2.31897011e-02],\n",
+       "                      [-1.93768069e-02, -2.13274453e-02,  1.93289435e-03, ...,\n",
+       "                       -7.42514804e-03,  1.38062406e-02,  2.07752399e-02],\n",
+       "                      [-2.49380674e-02,  4.27890457e-02,  2.95457132e-02, ...,\n",
+       "                       -5.99988271e-03,  2.97254454e-02,  3.55788060e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.58644877e-02, -1.62909031e-02,  5.00995666e-02, ...,\n",
+       "                        5.24207130e-02, -3.80506441e-02,  1.04527883e-02],\n",
+       "                      [-3.09245456e-02,  4.52832878e-02, -3.65436375e-02, ...,\n",
+       "                       -2.97559872e-02,  2.07313546e-03,  3.96508761e-02],\n",
+       "                      [-2.23282147e-02, -4.96926345e-02, -8.38533193e-02, ...,\n",
+       "                        4.02813032e-02,  7.18669407e-03,  1.00084869e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.54994717e-02, -6.85440842e-04,  6.61751628e-02, ...,\n",
+       "                        6.98446389e-03,  3.30823362e-02,  1.21366838e-02],\n",
+       "                      [ 4.69539873e-02,  5.99038340e-02,  3.56819779e-02, ...,\n",
+       "                       -3.75066176e-02,  1.15419859e-02, -1.12357801e-02],\n",
+       "                      [ 1.96084157e-02,  3.45024988e-02,  3.51261348e-02, ...,\n",
+       "                        2.33536810e-02,  1.73673294e-02,  1.88735779e-02]],\n",
+       "              \n",
+       "                     [[ 7.00034783e-04,  4.43254225e-02, -3.61993797e-02, ...,\n",
+       "                       -1.01138074e-02,  1.26488609e-02, -1.71760190e-02],\n",
+       "                      [ 3.64920273e-02, -1.57374945e-02,  4.31107357e-02, ...,\n",
+       "                       -1.70343544e-03, -1.85093228e-02, -1.72214750e-02],\n",
+       "                      [ 2.55862717e-02, -2.66940910e-02,  1.74765587e-02, ...,\n",
+       "                        2.03380585e-02, -2.64162403e-02,  4.29758057e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.22729898e-03,  3.42231169e-02, -3.71583700e-02, ...,\n",
+       "                       -1.99909993e-02, -3.34201287e-03, -1.14894807e-02],\n",
+       "                      [-2.31620437e-03, -1.74390487e-02,  1.49598904e-03, ...,\n",
+       "                       -1.63866114e-02,  1.97996534e-02, -1.46451220e-02],\n",
+       "                      [-2.22812425e-02, -1.40978247e-02,  3.97709124e-02, ...,\n",
+       "                        5.21076983e-03,  4.97731641e-02,  3.60605456e-02]],\n",
+       "              \n",
+       "                     [[-5.76440394e-02,  6.59279339e-03,  6.30571172e-02, ...,\n",
+       "                        7.76241207e-03,  9.36959125e-03,  4.67094360e-03],\n",
+       "                      [-7.77855283e-03,  4.28477377e-02, -1.87937953e-02, ...,\n",
+       "                       -1.09600574e-02,  3.76247801e-02, -1.16656590e-02],\n",
+       "                      [ 2.77719218e-02,  1.60257760e-02,  3.61022800e-02, ...,\n",
+       "                        2.16220301e-02,  3.12309824e-02, -2.29762644e-02],\n",
+       "                      ...,\n",
+       "                      [-8.95163789e-03,  4.01562974e-02,  8.33359361e-02, ...,\n",
+       "                        1.10300109e-02, -1.99703388e-02,  9.19944141e-03],\n",
+       "                      [-3.77306454e-02, -3.66421454e-02,  2.64238920e-02, ...,\n",
+       "                       -2.43516099e-02,  3.56255807e-02, -2.17668223e-03],\n",
+       "                      [-4.75421138e-02,  5.34872413e-02, -3.61219794e-03, ...,\n",
+       "                        6.75379634e-02,  8.22325796e-03, -3.92688029e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.03400545e-02, -1.56616718e-02,  1.80531628e-02, ...,\n",
+       "                        4.09547333e-03,  6.04682369e-03, -2.47979490e-03],\n",
+       "                      [-6.01073680e-03,  1.35822203e-02, -1.94223188e-02, ...,\n",
+       "                        1.54315904e-02,  4.23007943e-02,  9.81388986e-03],\n",
+       "                      [ 3.03449854e-02,  6.18951395e-02, -3.08971498e-02, ...,\n",
+       "                       -3.36437561e-02,  4.31980332e-03, -1.20434752e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.40916174e-02,  4.39837538e-02,  3.55901457e-02, ...,\n",
+       "                        1.86255127e-02, -2.55157333e-03,  3.30475681e-02],\n",
+       "                      [-6.14691805e-03, -1.21009874e-03,  6.18668739e-03, ...,\n",
+       "                        7.57104205e-03, -3.07258405e-02, -6.10211864e-05],\n",
+       "                      [-2.05689538e-02,  2.61113532e-02, -1.36594288e-02, ...,\n",
+       "                        3.22956629e-02,  9.42087919e-03, -2.71793958e-02]],\n",
+       "              \n",
+       "                     [[-3.18994038e-02,  2.98762377e-02, -4.58624493e-03, ...,\n",
+       "                       -3.14713195e-02, -3.61298025e-03, -1.81986094e-02],\n",
+       "                      [-3.42853963e-02, -5.06591192e-03, -3.48398313e-02, ...,\n",
+       "                       -9.28449351e-03, -1.66443270e-02,  8.47470853e-03],\n",
+       "                      [-1.73601918e-02,  3.66732851e-02,  4.99416888e-03, ...,\n",
+       "                       -3.08772968e-03, -5.62098771e-02, -3.27138081e-02],\n",
+       "                      ...,\n",
+       "                      [-1.00883364e-03,  4.41332869e-02,  2.31967717e-02, ...,\n",
+       "                        2.40737461e-02, -1.68242175e-02,  2.50099483e-03],\n",
+       "                      [ 8.56396370e-03,  2.12957878e-02,  1.40406489e-02, ...,\n",
+       "                       -2.74769403e-02,  4.22054939e-02,  2.11386364e-02],\n",
+       "                      [ 4.71551064e-03,  2.22238470e-02, -3.67458686e-02, ...,\n",
+       "                        5.65739311e-02, -3.86471301e-03,  3.21120396e-02]],\n",
+       "              \n",
+       "                     [[-6.54545240e-03,  6.59759808e-03,  3.10065020e-02, ...,\n",
+       "                       -9.30190831e-03,  8.43427628e-02, -2.98959631e-02],\n",
+       "                      [-8.13470513e-04,  1.32250199e-02,  3.23896222e-02, ...,\n",
+       "                        2.87297219e-02,  4.73870635e-02, -5.47314212e-02],\n",
+       "                      [ 8.83145910e-03,  3.59255895e-02,  3.82480241e-04, ...,\n",
+       "                       -2.42862813e-02,  1.51623031e-02,  4.65482958e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.51283403e-03, -3.90026607e-02, -3.47779356e-02, ...,\n",
+       "                        8.12389608e-03, -2.41510738e-02, -1.92626361e-02],\n",
+       "                      [-2.37690676e-02, -2.08333470e-02,  7.85396714e-03, ...,\n",
+       "                       -5.53582795e-03, -1.54151311e-02,  2.58248337e-02],\n",
+       "                      [ 3.37501578e-02, -1.90756079e-02,  6.25178516e-02, ...,\n",
+       "                       -1.13541130e-02,  2.42636055e-02, -3.49741355e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.01318777, -0.02295675, -0.00447986, ...,  0.02340226,\n",
+       "                        0.02396798,  0.02395212],\n",
+       "                      [ 0.02522937,  0.01013704,  0.0086226 , ..., -0.00869954,\n",
+       "                        0.00192121,  0.00910798],\n",
+       "                      [ 0.01310639,  0.05106861, -0.01553375, ...,  0.00325352,\n",
+       "                        0.01052794,  0.01080661],\n",
+       "                      ...,\n",
+       "                      [ 0.03860697,  0.00321612,  0.01908875, ..., -0.01612688,\n",
+       "                       -0.03148167,  0.00176519],\n",
+       "                      [-0.01119953,  0.01437492,  0.02190567, ..., -0.0132356 ,\n",
+       "                       -0.01323991, -0.00115896],\n",
+       "                      [-0.0071844 ,  0.05996596,  0.01216447, ...,  0.02777538,\n",
+       "                        0.02075953, -0.00351544]],\n",
+       "              \n",
+       "                     [[ 0.02537636,  0.02856876, -0.02342264, ..., -0.02573042,\n",
+       "                        0.01136574, -0.01453617],\n",
+       "                      [ 0.04506863, -0.01258433,  0.03250534, ...,  0.01795811,\n",
+       "                        0.01470979,  0.01413825],\n",
+       "                      [ 0.03603299,  0.03263394,  0.00097002, ...,  0.0020968 ,\n",
+       "                        0.02974231,  0.02116193],\n",
+       "                      ...,\n",
+       "                      [-0.02552052,  0.05043046, -0.05692687, ..., -0.05374872,\n",
+       "                        0.04860976, -0.01264693],\n",
+       "                      [ 0.01037689, -0.0361127 , -0.01846472, ..., -0.00514735,\n",
+       "                        0.02535365, -0.01905973],\n",
+       "                      [ 0.00298942, -0.00408463, -0.02461437, ...,  0.0171862 ,\n",
+       "                        0.06361403,  0.02029764]],\n",
+       "              \n",
+       "                     [[-0.02168439, -0.01428589,  0.0188216 , ...,  0.04270842,\n",
+       "                       -0.01303979,  0.02056494],\n",
+       "                      [ 0.00568785, -0.0082274 , -0.0066022 , ...,  0.01012719,\n",
+       "                        0.05014695, -0.02596882],\n",
+       "                      [-0.04066228, -0.00621352, -0.00332704, ..., -0.0157308 ,\n",
+       "                        0.0195204 , -0.03985695],\n",
+       "                      ...,\n",
+       "                      [ 0.02584991,  0.03518784,  0.02574175, ..., -0.01257392,\n",
+       "                       -0.04206349, -0.0048046 ],\n",
+       "                      [-0.01413388, -0.01485168,  0.02406313, ..., -0.01778922,\n",
+       "                        0.00461665,  0.00139692],\n",
+       "                      [-0.02803544, -0.00650722, -0.0021756 , ..., -0.00980162,\n",
+       "                        0.00206922,  0.00554118]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.05177293,  0.02650772, -0.00978526, ...,  0.0043966 ,\n",
+       "                        0.03506858,  0.01135329],\n",
+       "                      [ 0.0375731 , -0.01540854, -0.01112673, ...,  0.04526203,\n",
+       "                        0.0233603 ,  0.03603827],\n",
+       "                      [-0.02273492,  0.03706569,  0.02575646, ..., -0.03564757,\n",
+       "                       -0.04142889,  0.02389054],\n",
+       "                      ...,\n",
+       "                      [ 0.01941642, -0.0085012 , -0.0557094 , ..., -0.01670198,\n",
+       "                       -0.02052434, -0.00168407],\n",
+       "                      [-0.0351553 ,  0.01551712,  0.00915734, ...,  0.03178797,\n",
+       "                       -0.05964255, -0.00596981],\n",
+       "                      [-0.01134368,  0.00964628,  0.02129234, ..., -0.0319788 ,\n",
+       "                       -0.00213671, -0.03973258]],\n",
+       "              \n",
+       "                     [[-0.02210673,  0.00523586, -0.02834713, ..., -0.0636308 ,\n",
+       "                        0.01308194, -0.04781625],\n",
+       "                      [ 0.04696853,  0.006044  ,  0.04008915, ..., -0.01530645,\n",
+       "                       -0.00495765,  0.02629478],\n",
+       "                      [-0.00497302,  0.04778329,  0.03536648, ...,  0.03902463,\n",
+       "                       -0.02539242,  0.00059366],\n",
+       "                      ...,\n",
+       "                      [-0.03652025, -0.01612661, -0.00615743, ...,  0.02422498,\n",
+       "                       -0.0361707 ,  0.00268991],\n",
+       "                      [-0.04141604,  0.02176796, -0.0156197 , ..., -0.02489092,\n",
+       "                       -0.01849893, -0.01103601],\n",
+       "                      [ 0.00841193, -0.00149072,  0.02113938, ...,  0.02991742,\n",
+       "                        0.01191125, -0.06035671]],\n",
+       "              \n",
+       "                     [[-0.06655436,  0.02989374, -0.00491186, ..., -0.02252275,\n",
+       "                       -0.00717574, -0.01237144],\n",
+       "                      [ 0.02521724,  0.0361912 ,  0.00203329, ..., -0.02949763,\n",
+       "                        0.04080155,  0.00144356],\n",
+       "                      [ 0.02363535, -0.01556045,  0.02989104, ...,  0.01995425,\n",
+       "                       -0.04610887,  0.01528407],\n",
+       "                      ...,\n",
+       "                      [-0.01950484,  0.00086064,  0.0269462 , ...,  0.00156349,\n",
+       "                       -0.02226892,  0.00954708],\n",
+       "                      [-0.01465053,  0.01105888,  0.01764409, ..., -0.00928741,\n",
+       "                        0.04994562,  0.01589353],\n",
+       "                      [-0.03912487, -0.03753956,  0.01271566, ..., -0.02681927,\n",
+       "                        0.02774329,  0.00877878]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.15422297,  0.15251152,  0.15151495, ..., -0.14064746,\n",
+       "                        0.15980962,  0.17023641],\n",
+       "                      [ 0.12403049, -0.11331204,  0.12569176, ...,  0.03419707,\n",
+       "                        0.11924558, -0.12648791],\n",
+       "                      [ 0.18741001,  0.2065825 , -0.21270443, ..., -0.18990202,\n",
+       "                       -0.19090095,  0.21400924],\n",
+       "                      ...,\n",
+       "                      [-0.09375948,  0.1497509 , -0.15540144, ..., -0.14721322,\n",
+       "                       -0.1315167 ,  0.18122064],\n",
+       "                      [-0.0587317 , -0.04491074,  0.06508895, ...,  0.05110288,\n",
+       "                       -0.07071096,  0.06905462],\n",
+       "                      [-0.10754132,  0.09326541, -0.11327109, ...,  0.13738528,\n",
+       "                        0.11489961,  0.08941042]],\n",
+       "              \n",
+       "                     [[ 0.12603816,  0.12799536,  0.114959  , ..., -0.12556967,\n",
+       "                        0.13754195,  0.12753312],\n",
+       "                      [ 0.11207639, -0.08645801,  0.09082218, ...,  0.0140484 ,\n",
+       "                        0.09090979, -0.09082133],\n",
+       "                      [ 0.12011658,  0.13103087, -0.13148898, ..., -0.13706776,\n",
+       "                       -0.14105241,  0.14464939],\n",
+       "                      ...,\n",
+       "                      [-0.08723357,  0.13415268, -0.13347897, ..., -0.12054894,\n",
+       "                       -0.09278843,  0.11890148],\n",
+       "                      [-0.05226003, -0.05589713,  0.04540312, ...,  0.0524542 ,\n",
+       "                       -0.05015353,  0.05337596],\n",
+       "                      [-0.09745742,  0.05376444, -0.10187627, ...,  0.10980828,\n",
+       "                        0.09781883,  0.05953084]],\n",
+       "              \n",
+       "                     [[ 0.11002494,  0.11171411,  0.12875985, ..., -0.09876626,\n",
+       "                        0.09285793,  0.09519387],\n",
+       "                      [ 0.06178673, -0.06321578,  0.06327706, ...,  0.0183921 ,\n",
+       "                        0.070053  , -0.06644866],\n",
+       "                      [ 0.09401145,  0.12514193, -0.1072129 , ..., -0.11506124,\n",
+       "                       -0.10873202,  0.09183257],\n",
+       "                      ...,\n",
+       "                      [-0.05113322,  0.09918363, -0.06977255, ..., -0.06374843,\n",
+       "                       -0.06453439,  0.06466979],\n",
+       "                      [-0.05722687, -0.04498487,  0.05236579, ...,  0.04266383,\n",
+       "                       -0.03902495,  0.06698402],\n",
+       "                      [-0.08601442,  0.06496987, -0.08741223, ...,  0.08892538,\n",
+       "                        0.0762236 ,  0.05185533]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.03258494,  0.02736137,  0.03159478, ..., -0.0050315 ,\n",
+       "                        0.02083286,  0.01262121],\n",
+       "                      [ 0.00174807,  0.00937498,  0.00678354, ..., -0.02117664,\n",
+       "                        0.01459187,  0.01828629],\n",
+       "                      [ 0.02465683, -0.00056386, -0.00459205, ..., -0.01084275,\n",
+       "                       -0.01416829,  0.00643451],\n",
+       "                      ...,\n",
+       "                      [ 0.01033148,  0.01858198, -0.01299103, ..., -0.00311526,\n",
+       "                       -0.00346096,  0.01781024],\n",
+       "                      [ 0.01784543,  0.03135689, -0.02553988, ..., -0.01419736,\n",
+       "                        0.00564152, -0.04284179],\n",
+       "                      [-0.02111671,  0.00376334, -0.00511846, ...,  0.00299228,\n",
+       "                        0.01733587,  0.01314108]],\n",
+       "              \n",
+       "                     [[ 0.00155817,  0.0124634 , -0.00531541, ..., -0.02395814,\n",
+       "                        0.01838842,  0.01430834],\n",
+       "                      [-0.01416866,  0.01781069, -0.00140325, ..., -0.03955453,\n",
+       "                        0.00113838,  0.01469225],\n",
+       "                      [ 0.00463771,  0.01510996,  0.00966887, ..., -0.00089965,\n",
+       "                       -0.01006315, -0.01742918],\n",
+       "                      ...,\n",
+       "                      [ 0.02526212,  0.00189975, -0.00690951, ...,  0.03322651,\n",
+       "                        0.00972647, -0.00453685],\n",
+       "                      [-0.03453545, -0.00827258,  0.002002  , ..., -0.00169753,\n",
+       "                        0.00235903,  0.00800518],\n",
+       "                      [-0.00833696,  0.01879054, -0.00846341, ...,  0.0064977 ,\n",
+       "                       -0.01062366, -0.00981449]],\n",
+       "              \n",
+       "                     [[-0.00052047,  0.01607908,  0.0159875 , ..., -0.00116392,\n",
+       "                        0.03057439,  0.00448367],\n",
+       "                      [-0.00096017,  0.01755989,  0.00695677, ...,  0.01495614,\n",
+       "                        0.01156417, -0.00707076],\n",
+       "                      [ 0.0186196 ,  0.00072577, -0.00454208, ..., -0.02735286,\n",
+       "                       -0.01870047,  0.02145687],\n",
+       "                      ...,\n",
+       "                      [-0.02501232,  0.0173656 , -0.03569832, ..., -0.03760741,\n",
+       "                       -0.03900147,  0.02033172],\n",
+       "                      [ 0.02029336,  0.01859468, -0.00411095, ..., -0.02711406,\n",
+       "                        0.02178913, -0.0037175 ],\n",
+       "                      [-0.0084949 , -0.00486461,  0.00732055, ...,  0.00235856,\n",
+       "                        0.01311421,  0.00130192]]], dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.26868203, -0.27535695, -0.2693576 ,  0.27960885,  0.27287057,\n",
+       "                      -0.2753529 ,  0.27302045,  0.27561706,  0.25255072,  0.26636192,\n",
+       "                      -0.28757757, -0.27930236],\n",
+       "                     [-0.17975715,  0.15488821, -0.20194016, -0.17133014,  0.18513367,\n",
+       "                      -0.17031926, -0.13915437, -0.174314  , -0.1761386 , -0.07194202,\n",
+       "                      -0.18746632,  0.19164573],\n",
+       "                     [-0.3003058 , -0.30145678,  0.29975912, -0.30536792,  0.28004438,\n",
+       "                      -0.30651012,  0.2930349 , -0.27700898,  0.31011826,  0.29096514,\n",
+       "                       0.2603118 , -0.2955512 ],\n",
+       "                     [-0.24198084, -0.24300672, -0.24064417,  0.22756597, -0.2342006 ,\n",
+       "                       0.23656972, -0.2141901 ,  0.2417877 , -0.22542073, -0.2244719 ,\n",
+       "                      -0.24350967,  0.22337465],\n",
+       "                     [-0.29359788, -0.31946722, -0.33398148, -0.28803867,  0.3236134 ,\n",
+       "                      -0.2811088 , -0.28998134,  0.3042817 , -0.35590464, -0.30023083,\n",
+       "                      -0.29228398,  0.30816096],\n",
+       "                     [ 0.2354194 , -0.17245759, -0.2630802 , -0.19778982,  0.25238597,\n",
+       "                      -0.2535281 , -0.21062599,  0.22958456,  0.23370266, -0.25747344,\n",
+       "                       0.21018639, -0.20019868],\n",
+       "                     [-0.27674368, -0.2830251 , -0.2683709 , -0.28431627, -0.2847683 ,\n",
+       "                      -0.27203888,  0.29270157, -0.27411065,  0.3012199 ,  0.29456046,\n",
+       "                      -0.29395536, -0.2936156 ],\n",
+       "                     [-0.28742933,  0.30742434,  0.32838947,  0.31597203,  0.32925567,\n",
+       "                      -0.29919747, -0.30918163, -0.34416848, -0.3180004 , -0.32539096,\n",
+       "                      -0.30107445,  0.32607213],\n",
+       "                     [ 0.23184535,  0.22952211,  0.23920947,  0.22898799, -0.24847259,\n",
+       "                       0.22576277, -0.22404635,  0.22275062, -0.25400835, -0.20933175,\n",
+       "                      -0.23276992,  0.24126779],\n",
+       "                     [-0.18964213,  0.17429198, -0.18237531, -0.19432713,  0.18581223,\n",
+       "                      -0.19006582, -0.18830542,  0.17501049, -0.18752085,  0.18117443,\n",
+       "                      -0.18904155, -0.17408559],\n",
+       "                     [-0.34026957, -0.31199163,  0.3708957 , -0.31058815,  0.34430262,\n",
+       "                       0.32358223, -0.25290844,  0.31337228,  0.30053562,  0.335105  ,\n",
+       "                       0.33377516, -0.33765417],\n",
+       "                     [-0.21473545, -0.22248077, -0.22520685, -0.23809859,  0.24367464,\n",
+       "                       0.2134066 ,  0.25153336,  0.20766017, -0.00349386, -0.22780456,\n",
+       "                       0.2263006 , -0.22154689],\n",
+       "                     [-0.15095639, -0.18229209, -0.1734314 ,  0.14655188,  0.19161867,\n",
+       "                       0.07208873,  0.17548715,  0.19643627,  0.18742768, -0.18380925,\n",
+       "                      -0.19883142, -0.1959907 ],\n",
+       "                     [ 0.2268816 , -0.2609067 ,  0.24444549, -0.25492504,  0.24929528,\n",
+       "                       0.27251542, -0.27039358,  0.28755218,  0.2603899 ,  0.2719274 ,\n",
+       "                       0.26308933, -0.2474161 ],\n",
+       "                     [ 0.18814561,  0.16956286, -0.1561942 , -0.16392718,  0.17291549,\n",
+       "                       0.18032758,  0.18189184, -0.1980179 ,  0.18668872, -0.17640045,\n",
+       "                       0.17143048, -0.17791554],\n",
+       "                     [ 0.17702802, -0.1416968 ,  0.19410823, -0.1850939 , -0.20523228,\n",
+       "                      -0.1414121 , -0.17293154,  0.13094904, -0.20175035, -0.19630112,\n",
+       "                      -0.1801811 , -0.12336571]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.03094118,  0.09227013,  0.11201435, -0.08281983, -0.1155338 ,\n",
+       "                       0.09632084, -0.12966166, -0.08168372, -0.03784281, -0.11728286,\n",
+       "                       0.06686564,  0.10560343],\n",
+       "                     [-0.00972843,  0.00301247,  0.0213855 , -0.01911797,  0.00469647,\n",
+       "                      -0.02685864, -0.00583532, -0.01292591, -0.00499333, -0.01913606,\n",
+       "                       0.00341732,  0.02690028],\n",
+       "                     [ 0.03619004,  0.11354181, -0.17149776,  0.15797007, -0.15656814,\n",
+       "                       0.13987173, -0.10812069,  0.10685514, -0.12313732, -0.1284994 ,\n",
+       "                      -0.04995194,  0.11081317],\n",
+       "                     [ 0.03093367,  0.00487875,  0.06925732, -0.02231372,  0.01200025,\n",
+       "                       0.02084959,  0.01579359, -0.02532145,  0.02308956,  0.04844378,\n",
+       "                       0.00687829, -0.0300226 ],\n",
+       "                     [ 0.12325569,  0.19701692,  0.13378485,  0.01059841, -0.15528047,\n",
+       "                       0.05501186,  0.09498411, -0.11409605,  0.04993166,  0.12784524,\n",
+       "                       0.1036239 , -0.14872131],\n",
+       "                     [-0.06597345, -0.01467367,  0.03897054, -0.00212184, -0.08119051,\n",
+       "                       0.04852175, -0.00970348, -0.05740241, -0.07879417,  0.02758966,\n",
+       "                      -0.00241489, -0.00510158],\n",
+       "                     [ 0.09521554,  0.10691068,  0.11378186,  0.11781257,  0.11570975,\n",
+       "                       0.05820245, -0.09446467,  0.15486579, -0.06984306, -0.1343593 ,\n",
+       "                       0.06469096,  0.1278978 ],\n",
+       "                     [ 0.06212573, -0.17038704, -0.04677145, -0.07650258, -0.10857066,\n",
+       "                       0.08708575,  0.11975162,  0.07334787,  0.07723391,  0.08609731,\n",
+       "                       0.06248412, -0.10044962],\n",
+       "                     [-0.03502145, -0.04015782, -0.04989583, -0.02624421,  0.03372623,\n",
+       "                      -0.03072098,  0.01232656, -0.04399421,  0.02231663,  0.01969207,\n",
+       "                       0.02983998,  0.00214368],\n",
+       "                     [ 0.00347692,  0.01442801, -0.0304993 , -0.03323466, -0.0023081 ,\n",
+       "                       0.00499137,  0.01037823,  0.0102771 , -0.04711171,  0.01533431,\n",
+       "                       0.00357566, -0.00581984],\n",
+       "                     [ 0.12339349,  0.00848057, -0.14387739,  0.14553407, -0.13200925,\n",
+       "                      -0.08951408, -0.03027294, -0.04229014, -0.02739212, -0.12291225,\n",
+       "                      -0.0491762 ,  0.07527936],\n",
+       "                     [ 0.01299402,  0.02844498,  0.03334109,  0.07558666,  0.00912123,\n",
+       "                      -0.00561106,  0.00316214,  0.01945617, -0.06495948,  0.0313393 ,\n",
+       "                      -0.03638548,  0.05631591],\n",
+       "                     [-0.03493267,  0.0009238 , -0.03275893, -0.07044513,  0.02833049,\n",
+       "                      -0.05842603,  0.03714465, -0.05074135,  0.03266738, -0.04811786,\n",
+       "                       0.02824339,  0.04813497],\n",
+       "                     [-0.0230894 ,  0.06331895, -0.02569953,  0.05118599, -0.0753116 ,\n",
+       "                      -0.08294188,  0.01028657, -0.05590601, -0.07358146, -0.01478267,\n",
+       "                      -0.01705774,  0.05063409],\n",
+       "                     [ 0.01280639,  0.03038446,  0.00986827,  0.03244009, -0.00116751,\n",
+       "                       0.00987709,  0.0066936 , -0.01129914,  0.02202172,  0.0140991 ,\n",
+       "                      -0.0241296 , -0.02932922],\n",
+       "                     [ 0.03113999, -0.0431393 , -0.01171712, -0.02561518, -0.01583358,\n",
+       "                       0.05254831, -0.02684362,  0.04726546,  0.00764423, -0.02696961,\n",
+       "                      -0.04231891, -0.03636917]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-5.27779851e-03, -8.88226088e-03, -2.81230034e-03,\n",
+       "                       -9.52023640e-03,  1.47909373e-02, -5.27651515e-03,\n",
+       "                        7.12421082e-04, -4.35501774e-04,  1.20813437e-02,\n",
+       "                        1.61098633e-02, -5.68047771e-03,  6.59660343e-03],\n",
+       "                      [ 8.12851795e-05,  1.06413811e-02,  1.21246511e-02,\n",
+       "                        8.09746701e-03, -1.66827242e-03,  5.45212487e-03,\n",
+       "                        2.51806108e-03, -7.02599110e-03, -5.89881674e-04,\n",
+       "                        7.86851277e-04,  8.42893124e-03, -5.61370468e-03],\n",
+       "                      [ 1.97568326e-03,  5.44500025e-03, -1.42024169e-02,\n",
+       "                       -8.83423816e-03, -1.29927546e-02,  1.79970870e-03,\n",
+       "                        7.78046018e-03, -4.26901923e-03,  1.98270730e-03,\n",
+       "                        4.82431892e-03,  3.14646889e-03,  1.76119134e-02],\n",
+       "                      [ 2.22888426e-03,  1.76985911e-03,  2.47098110e-03,\n",
+       "                       -2.46098149e-03, -7.75786582e-03, -9.53307562e-03,\n",
+       "                       -1.71756893e-02, -1.01085817e-02, -1.79497171e-02,\n",
+       "                        8.97192210e-03, -5.22097060e-03, -5.67968423e-03],\n",
+       "                      [ 4.55937535e-03,  5.47372131e-03,  2.80431146e-03,\n",
+       "                       -2.00350024e-03, -1.60003966e-03,  5.29667968e-03,\n",
+       "                       -4.33545560e-03,  5.67700062e-03,  1.46172643e-02,\n",
+       "                        8.63140821e-03,  6.99569564e-03,  9.81627963e-03],\n",
+       "                      [-1.26747666e-02,  8.24042596e-03, -4.08668164e-03,\n",
+       "                       -2.08276766e-03, -1.91742834e-02, -4.82950546e-03,\n",
+       "                        1.76985364e-03,  1.45667931e-02,  4.86878864e-03,\n",
+       "                        2.16771313e-03,  1.14471335e-02, -4.81423782e-03],\n",
+       "                      [ 1.19527150e-02,  1.98420696e-02, -9.66270454e-03,\n",
+       "                        1.13149686e-02,  1.12002278e-02, -5.22031775e-03,\n",
+       "                       -8.76240339e-03, -2.35813670e-03, -9.54557862e-03,\n",
+       "                        3.40229901e-03, -4.78588976e-04,  1.34701496e-02],\n",
+       "                      [ 8.69849138e-03, -2.89159734e-03, -1.06805945e-02,\n",
+       "                        1.16119636e-02,  5.37191145e-03, -5.13361010e-04,\n",
+       "                       -8.46221577e-03,  5.01126098e-03, -2.37584673e-03,\n",
+       "                        4.26042639e-03, -1.27333589e-03, -1.69654787e-02],\n",
+       "                      [-7.09492620e-03, -2.11342960e-03, -1.01511432e-02,\n",
+       "                        1.17846369e-03,  9.98882391e-03, -9.83751100e-03,\n",
+       "                       -1.30945332e-02, -5.21418918e-03,  7.06450688e-03,\n",
+       "                        2.37721877e-04,  4.22352878e-03,  1.44046254e-03],\n",
+       "                      [-8.36623274e-03,  6.10570842e-03, -1.59419682e-02,\n",
+       "                        6.57670712e-03, -1.63553599e-02, -2.56635365e-03,\n",
+       "                       -2.83746095e-03,  5.48101217e-03, -1.10250590e-02,\n",
+       "                       -2.07894505e-03,  8.96814838e-03, -2.38579977e-03],\n",
+       "                      [ 1.92926470e-02,  5.27919503e-04,  1.26005081e-03,\n",
+       "                        1.14092669e-02, -6.77683810e-03, -9.93159506e-03,\n",
+       "                        6.33316627e-03,  1.26732690e-02, -1.39365206e-02,\n",
+       "                       -1.03181750e-02,  9.53592185e-04,  5.34668751e-03],\n",
+       "                      [ 5.63685270e-03,  1.29154501e-02,  6.42203633e-03,\n",
+       "                        2.95452494e-03,  9.61340556e-04,  1.03710396e-02,\n",
+       "                        1.88411921e-02,  9.56728496e-03, -2.44812435e-03,\n",
+       "                        1.41650520e-03, -3.90278571e-03,  1.16586024e-02],\n",
+       "                      [-3.03845573e-03,  1.16512487e-02,  1.38139790e-02,\n",
+       "                        6.47752266e-03, -5.40793641e-03, -1.19044734e-02,\n",
+       "                       -4.70434874e-03, -6.79142633e-03, -3.91318183e-03,\n",
+       "                       -8.58331285e-03,  1.55337723e-02, -9.22051352e-03],\n",
+       "                      [ 1.43822525e-02, -9.65516735e-03,  1.16251959e-02,\n",
+       "                        3.56233446e-03,  5.01413178e-03, -1.28455460e-02,\n",
+       "                        3.44698690e-03,  5.95927332e-03,  5.65657916e-04,\n",
+       "                       -1.57259824e-03,  2.90443003e-03,  6.97103469e-03],\n",
+       "                      [ 2.19722962e-04,  8.19719862e-03,  1.07631981e-02,\n",
+       "                       -1.24994228e-02, -1.02878679e-02,  8.78847297e-03,\n",
+       "                       -9.00726300e-03,  5.99039858e-03, -4.57549794e-03,\n",
+       "                       -3.82497930e-03, -8.10217857e-03,  7.49109359e-03],\n",
+       "                      [ 8.71846266e-03,  5.56638092e-03,  1.21459197e-02,\n",
+       "                       -5.88803319e-03,  1.12210959e-03, -5.64932078e-03,\n",
+       "                       -9.36472695e-03,  6.35942258e-03, -7.20582251e-03,\n",
+       "                        9.68251377e-03,  1.35562858e-02, -2.26370129e-03]],\n",
+       "              \n",
+       "                     [[-3.01201153e-03,  1.70398690e-03, -9.29654110e-03,\n",
+       "                        5.31336060e-03, -5.17250365e-03,  8.25267925e-04,\n",
+       "                        3.88166425e-03,  8.23030062e-03, -2.94712884e-03,\n",
+       "                        7.33170612e-03,  1.31624732e-02, -3.62283341e-03],\n",
+       "                      [ 1.46265989e-02,  7.61225261e-03,  1.41994213e-04,\n",
+       "                       -2.94563826e-03, -5.41416928e-03, -1.46033627e-03,\n",
+       "                       -8.13731458e-03,  1.42887337e-02, -1.95643865e-03,\n",
+       "                        2.03239126e-03,  1.96603732e-03, -4.00112243e-03],\n",
+       "                      [ 3.50447209e-03, -5.01147006e-03,  4.89398139e-03,\n",
+       "                        8.28224514e-03, -2.48171762e-03,  2.46420549e-03,\n",
+       "                       -1.76831894e-03,  9.03744064e-03,  8.11696111e-04,\n",
+       "                        1.04465755e-02, -9.57741402e-03,  5.22807427e-03],\n",
+       "                      [ 1.81312319e-02, -4.55953617e-04, -7.14232726e-03,\n",
+       "                       -2.30852817e-03, -8.78485572e-03,  1.75538776e-03,\n",
+       "                       -3.34007433e-03,  9.97890625e-03,  4.45234217e-03,\n",
+       "                        1.23756528e-02, -9.38791409e-03, -1.07417803e-03],\n",
+       "                      [ 4.70838370e-03, -7.59124989e-03,  1.18844379e-02,\n",
+       "                       -1.86773483e-02, -7.92077556e-03, -6.16677618e-03,\n",
+       "                       -3.28160217e-03,  3.82375624e-03,  1.12824058e-02,\n",
+       "                       -1.15379859e-02,  1.82860661e-02, -1.21967122e-03],\n",
+       "                      [ 1.13177570e-02, -4.38998686e-03,  1.43300099e-02,\n",
+       "                       -1.19108809e-02,  1.14921958e-03,  1.52586366e-03,\n",
+       "                       -4.80240735e-04,  1.56034110e-02, -2.46891589e-03,\n",
+       "                        4.48609563e-03,  6.74360152e-03,  2.37283413e-03],\n",
+       "                      [ 1.09547712e-02, -3.41630221e-04,  2.67111650e-03,\n",
+       "                        3.63814714e-03, -1.74294151e-02, -7.67725799e-03,\n",
+       "                       -8.49556644e-03, -5.96185913e-03, -6.28766883e-03,\n",
+       "                       -1.49066029e-02, -1.02604553e-02, -9.20697395e-03],\n",
+       "                      [-1.12318797e-02,  2.97943875e-03, -1.21366177e-02,\n",
+       "                       -3.75522487e-03, -6.15986576e-03,  3.84680135e-03,\n",
+       "                       -9.26485471e-03,  2.81514693e-03,  1.46201355e-02,\n",
+       "                       -2.88473908e-03,  1.03525519e-02,  1.86061300e-02],\n",
+       "                      [-9.53767449e-03,  9.74707492e-03,  3.40018771e-03,\n",
+       "                       -2.09565135e-03, -2.57639308e-03, -3.49352928e-03,\n",
+       "                        1.67317118e-03,  1.15692504e-02,  4.90729930e-03,\n",
+       "                        1.24288796e-04,  1.19305719e-02, -1.28981266e-02],\n",
+       "                      [ 1.02281254e-02,  4.78178402e-03, -4.35357308e-03,\n",
+       "                        3.73754930e-03,  8.29111412e-03,  5.05232904e-03,\n",
+       "                       -1.77625958e-02, -1.91882402e-02, -8.58434569e-03,\n",
+       "                        1.02265412e-03, -3.06064147e-03, -3.64471762e-03],\n",
+       "                      [-1.44330030e-02,  1.93670299e-02,  1.09457932e-02,\n",
+       "                       -5.87473903e-03, -9.07221809e-03,  1.16742980e-02,\n",
+       "                        2.36421984e-05, -8.71126482e-04, -9.67785250e-03,\n",
+       "                        3.82036879e-03,  9.15551838e-03, -2.89905164e-03],\n",
+       "                      [ 4.01087943e-03,  6.75610406e-03,  8.85603670e-03,\n",
+       "                       -3.47056519e-03,  8.73016892e-04, -1.01834640e-03,\n",
+       "                       -1.64966681e-03, -2.21235445e-03,  9.57684778e-03,\n",
+       "                        4.81542945e-03,  1.57893432e-04, -1.59290042e-02],\n",
+       "                      [-1.11627420e-02,  9.81606636e-03, -6.05386123e-03,\n",
+       "                       -3.32297711e-03, -7.22375279e-03,  2.24133884e-03,\n",
+       "                        2.15093256e-03, -1.19461836e-02,  1.10612076e-03,\n",
+       "                        1.65597424e-02,  1.16270292e-03, -2.23377813e-03],\n",
+       "                      [ 1.34263944e-03,  5.71138784e-03, -6.21036766e-03,\n",
+       "                       -1.15926396e-02, -9.60804336e-03,  2.78700469e-03,\n",
+       "                       -6.81011705e-03, -1.00470139e-02,  1.26223499e-02,\n",
+       "                       -1.38519770e-02,  8.48167855e-03, -8.67073797e-03],\n",
+       "                      [ 7.76617508e-03, -4.73470520e-03, -5.49206603e-03,\n",
+       "                       -1.75008969e-03,  2.21663760e-03, -6.05556136e-03,\n",
+       "                        1.34991286e-02, -1.12727834e-02,  1.85831555e-03,\n",
+       "                       -5.13528939e-03,  1.42547470e-02, -7.04276469e-03],\n",
+       "                      [ 2.68135243e-03, -6.54922193e-03,  8.23414978e-03,\n",
+       "                        2.85659893e-03,  8.38303566e-03,  9.66343097e-03,\n",
+       "                        1.36161223e-03,  1.24757364e-03, -1.30205378e-02,\n",
+       "                        3.25935357e-03,  1.72301754e-02, -6.05487078e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.2522751 , 1.0093765 , 1.1682793 , 1.2730445 , 1.1290082 ,\n",
+       "                       1.1066203 , 1.2573878 , 1.2429068 , 1.1264472 , 1.2486175 ,\n",
+       "                       1.1848505 , 1.2741587 , 1.206441  , 1.0918944 , 1.0869336 ,\n",
+       "                       1.1999458 , 1.0683286 , 1.1028944 , 1.0555205 , 1.252938  ,\n",
+       "                       1.0823282 , 1.2489052 , 1.264616  , 1.2999828 , 1.2788929 ,\n",
+       "                       1.1698768 , 0.9360449 , 1.2396882 , 1.212866  , 1.263233  ,\n",
+       "                       1.1779826 , 1.2009988 , 1.2418183 , 1.2686338 , 1.1805633 ,\n",
+       "                       1.1343807 , 1.2727007 , 1.1718581 , 1.2787241 , 1.2082775 ,\n",
+       "                       1.1255412 , 1.1395037 , 1.1745707 , 1.0784985 , 1.2188327 ,\n",
+       "                       1.1633599 , 1.2963617 , 1.0634298 , 1.2542322 , 1.2530534 ,\n",
+       "                       1.2687988 , 0.8772695 , 1.0806193 , 1.2497077 , 1.1243813 ,\n",
+       "                       1.0014821 , 1.099511  , 1.1929379 , 1.100037  , 1.0372964 ,\n",
+       "                       1.1875197 , 1.2419759 , 1.283821  , 1.2847592 , 1.1503284 ,\n",
+       "                       1.1659832 , 1.2350835 , 1.2548746 , 1.1188186 , 1.2092803 ,\n",
+       "                       1.211994  , 1.2788891 , 1.2673773 , 1.158101  , 1.0983268 ,\n",
+       "                       1.2055833 , 1.1978227 , 1.1251754 , 1.2141727 , 1.2425163 ,\n",
+       "                       1.2850866 , 1.2721363 , 1.2333146 , 1.2206935 , 1.2748688 ,\n",
+       "                       1.1705027 , 1.0520046 , 1.2779021 , 1.2621833 , 1.2819186 ,\n",
+       "                       1.0821573 , 1.2487339 , 1.2016653 , 1.0732634 , 1.047415  ,\n",
+       "                       1.1905521 , 1.1431751 , 1.123514  , 1.167525  , 1.1280419 ,\n",
+       "                       1.2490776 , 1.0800833 , 1.0971141 , 1.1880326 , 1.0583612 ,\n",
+       "                       1.2673814 , 1.1592313 , 1.1000642 , 1.0691762 , 1.1786101 ,\n",
+       "                       1.03656   , 1.3018342 , 1.1104187 , 1.1516141 , 1.2461619 ,\n",
+       "                       1.2952878 , 1.2018924 , 1.1943662 , 1.1685911 , 1.1472508 ,\n",
+       "                       1.1439903 , 1.165938  , 1.2121962 , 1.1980138 , 1.2737277 ,\n",
+       "                       1.2126373 , 1.3023908 , 1.0751258 , 1.1792599 , 1.2828441 ,\n",
+       "                       1.1272415 , 1.0575378 , 1.2931595 , 1.2220132 , 1.1648686 ,\n",
+       "                       1.2046567 , 1.1758484 , 1.0887432 , 1.2748208 , 1.2743984 ,\n",
+       "                       1.0936766 , 1.1675012 , 1.1073984 , 1.2471579 , 1.2580185 ,\n",
+       "                       1.2944169 , 1.0588381 , 1.239205  , 1.0478017 , 1.0710353 ,\n",
+       "                       1.2854698 , 1.1657965 , 1.0569364 , 1.1264596 , 1.2301056 ,\n",
+       "                       1.1430358 , 1.0730251 , 1.2023942 , 1.1937732 , 1.2309388 ,\n",
+       "                       1.2708906 , 1.126246  , 1.1178268 , 1.2910633 , 1.2957244 ,\n",
+       "                       0.89223814, 1.234347  , 1.2954712 , 1.0805429 , 1.1072289 ,\n",
+       "                       1.2282895 , 1.1035715 , 1.2435746 , 1.2350806 , 1.279401  ,\n",
+       "                       1.1488963 , 1.2315387 , 1.1120211 , 1.2320697 , 1.1059345 ,\n",
+       "                       1.2748728 , 1.2064512 , 1.1769738 , 1.0744382 , 1.1339085 ,\n",
+       "                       1.3024759 , 1.0569987 , 1.1273695 , 1.1070974 , 1.2043669 ,\n",
+       "                       1.2093413 , 1.1788723 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-2.98464089e-03, -1.50231654e-02,  2.09697019e-02, -1.23314664e-03,\n",
+       "                       -1.79774147e-02,  1.54648647e-02, -1.13313952e-02,  3.37430947e-02,\n",
+       "                       -1.76270995e-02,  1.56363547e-02, -1.68003254e-02, -2.02743132e-02,\n",
+       "                        2.23831926e-02,  1.05386216e-03,  2.83501968e-02, -3.07279024e-02,\n",
+       "                       -1.25424191e-02, -8.70161317e-03, -2.72763968e-02,  2.50578281e-02,\n",
+       "                       -3.35835037e-03, -6.12330018e-03, -5.59682120e-03, -6.94832532e-04,\n",
+       "                        7.69904582e-03, -1.18678005e-03, -3.49601321e-02, -9.72641818e-03,\n",
+       "                       -3.91906984e-02, -4.36295755e-02,  2.40605343e-02, -1.26803098e-02,\n",
+       "                        1.65936016e-02,  1.91623457e-02,  6.25976995e-02,  1.39758345e-02,\n",
+       "                        1.44732976e-02, -1.96330920e-02, -2.37285141e-02, -1.01893693e-02,\n",
+       "                        4.22124425e-03,  3.92983705e-02, -7.99220707e-03,  3.00118746e-03,\n",
+       "                        3.36812437e-02, -2.54718903e-02, -2.95100398e-02,  1.80750452e-02,\n",
+       "                       -1.00522372e-03, -4.38039601e-02, -9.71965864e-03, -6.45025522e-02,\n",
+       "                       -5.59889292e-03,  2.35542040e-02,  3.48944180e-02,  1.94434412e-02,\n",
+       "                       -2.65257247e-03,  1.47554267e-04,  1.92478672e-02, -1.64113492e-02,\n",
+       "                       -6.28845487e-03,  1.25184590e-02,  4.25684778e-03,  1.67209227e-02,\n",
+       "                        1.72825307e-02,  1.08774230e-02, -1.02349566e-02, -4.43569049e-02,\n",
+       "                        7.88553897e-03,  5.94177190e-03, -4.77964786e-05, -1.96775608e-03,\n",
+       "                        1.04662115e-02,  2.62461826e-02, -1.45518677e-02,  2.35954323e-03,\n",
+       "                       -5.59200021e-03, -3.64836911e-03,  3.70329954e-02,  5.26014389e-03,\n",
+       "                       -1.62950214e-02,  6.71906397e-04, -7.20348954e-03, -3.44505045e-03,\n",
+       "                       -4.67529781e-02, -4.02089814e-03, -2.22560782e-02, -3.31367482e-03,\n",
+       "                       -2.47765109e-02, -2.75341962e-02,  8.32898635e-03, -3.27639952e-02,\n",
+       "                       -4.90404200e-03, -1.50603792e-02,  3.19701433e-02,  4.32597250e-02,\n",
+       "                        5.01151616e-03,  2.81178905e-03, -2.32189838e-02, -1.96613707e-02,\n",
+       "                        4.05130386e-02,  8.65645998e-04, -2.15268787e-03,  1.02070961e-02,\n",
+       "                        2.35224515e-02, -2.00268682e-02,  7.35167265e-02,  1.41650038e-02,\n",
+       "                       -1.44532919e-02, -8.02343059e-03,  1.83129776e-02, -9.27788555e-04,\n",
+       "                        1.10090058e-02,  4.74795699e-03, -1.33473482e-02,  1.60589209e-03,\n",
+       "                        1.79640148e-02, -3.50943021e-02,  2.36071516e-02, -4.04885896e-02,\n",
+       "                        4.15267237e-03,  4.04605456e-02, -3.81647721e-02,  2.88253874e-02,\n",
+       "                        2.72405948e-02, -2.06570514e-02, -3.13308574e-02,  3.17084752e-02,\n",
+       "                        9.24810767e-03, -2.34516822e-02, -1.01891151e-02, -1.19521432e-02,\n",
+       "                        4.38026786e-02,  3.17258993e-03, -2.26926766e-02,  2.71393117e-02,\n",
+       "                       -3.68446931e-02,  1.49202673e-02, -3.11328359e-02, -2.83620413e-03,\n",
+       "                        5.08711534e-03, -4.33024056e-02, -1.89927369e-02, -1.01872627e-02,\n",
+       "                       -1.85664985e-02, -4.16085729e-03,  1.89902484e-02,  1.12784393e-02,\n",
+       "                        2.38752626e-02, -6.84569497e-03,  2.17821002e-02, -1.97977237e-02,\n",
+       "                       -1.66308414e-02, -3.07456274e-02, -3.78057733e-02, -3.30768041e-02,\n",
+       "                        3.19958180e-02, -2.58779544e-02,  3.01505718e-02, -1.23978639e-02,\n",
+       "                       -1.86105408e-02,  1.98843190e-03, -5.23419771e-03, -2.69749109e-02,\n",
+       "                        1.39689045e-02,  7.39523172e-02,  2.58618426e-02,  1.34255374e-02,\n",
+       "                        4.02543228e-03,  1.80811211e-02,  6.88319735e-04, -1.44856386e-02,\n",
+       "                       -1.87959094e-02, -1.02204261e-02, -2.11577900e-02,  2.42553800e-02,\n",
+       "                       -2.62665078e-02, -4.44081728e-04,  5.03046736e-02, -3.12130284e-02,\n",
+       "                       -3.50290053e-02, -3.22235823e-02,  1.90551504e-02,  4.61142883e-02,\n",
+       "                       -1.01779238e-03, -6.54420210e-03, -2.49097664e-02,  7.40637258e-03,\n",
+       "                        2.10344177e-02, -4.66982648e-02,  5.15882820e-02,  1.91493165e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.00731476, -0.00559723,  0.01555359, ...,  0.02702708,\n",
+       "                        -0.02925726,  0.0330934 ],\n",
+       "                       [ 0.00382878, -0.00857857, -0.00621445, ..., -0.03116777,\n",
+       "                        -0.02194773,  0.00094237],\n",
+       "                       [ 0.00849335, -0.00464835, -0.06374532, ..., -0.0259069 ,\n",
+       "                         0.0161467 , -0.03729364],\n",
+       "                       ...,\n",
+       "                       [ 0.00713318,  0.01849269, -0.01105219, ..., -0.02167626,\n",
+       "                        -0.01229631,  0.00088599],\n",
+       "                       [ 0.00013176,  0.01139327,  0.0476611 , ...,  0.01338592,\n",
+       "                         0.07754453,  0.05307612],\n",
+       "                       [ 0.02423082, -0.0159826 , -0.04952573, ...,  0.01666124,\n",
+       "                         0.02278122, -0.01013451]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-1.95844453e-02, -8.65549129e-03, -2.18259636e-02, -1.36310216e-02,\n",
+       "                       -1.93196833e-02, -9.62962210e-03, -1.83725618e-02, -5.56009170e-03,\n",
+       "                       -4.40984359e-03,  5.52236522e-03, -2.25103907e-02, -9.18406714e-03,\n",
+       "                       -3.52970622e-02, -1.04512926e-02, -3.21112722e-02,  1.59434713e-02,\n",
+       "                        1.79731555e-03, -7.85902236e-03, -2.92546619e-02, -1.98933110e-02,\n",
+       "                       -2.29590442e-02, -1.22489026e-02,  3.60434968e-03,  7.12449942e-03,\n",
+       "                       -3.12253740e-02, -1.14131710e-02, -6.21447153e-03, -1.52915362e-02,\n",
+       "                       -3.31035745e-03,  7.89731333e-04, -7.00089056e-03, -1.76686179e-02,\n",
+       "                       -2.90661827e-02, -2.20301133e-02, -4.60966863e-03, -2.97740158e-02,\n",
+       "                       -6.14430755e-03,  6.31537382e-03, -1.37350485e-02, -1.41976494e-02,\n",
+       "                       -2.04356965e-02, -2.56464281e-03, -3.42225693e-02, -5.60883759e-03,\n",
+       "                       -1.63527075e-02, -4.48552007e-03,  1.73742305e-02,  2.00275634e-03,\n",
+       "                       -8.75139143e-03, -4.51084562e-02, -4.63086031e-02, -1.92881525e-02,\n",
+       "                       -2.18698028e-02, -1.59494150e-02, -3.09668761e-02, -8.76304111e-04,\n",
+       "                       -1.74001250e-02, -4.11107317e-02,  1.11754416e-02, -1.77288183e-03,\n",
+       "                        1.37658382e-04, -3.70841920e-02, -1.52563611e-02, -6.32030098e-03,\n",
+       "                        1.86634064e-03, -1.54110473e-02,  6.92351721e-03, -2.04970017e-02,\n",
+       "                       -2.54487991e-02, -2.57756356e-02, -2.62815263e-02, -4.56504859e-02,\n",
+       "                        1.27559928e-02, -2.12265123e-02,  2.20705289e-02, -1.35426512e-02,\n",
+       "                        1.27521986e-02, -5.77939954e-03, -2.21070591e-02, -2.39898171e-02,\n",
+       "                       -4.66552265e-02, -4.68218559e-03, -2.94441953e-02, -2.85015106e-02,\n",
+       "                       -1.99070899e-03, -2.24121734e-02,  2.65262963e-04, -4.05716622e-04,\n",
+       "                       -1.18416417e-02, -4.56276089e-02, -1.00249611e-02, -2.25096680e-02,\n",
+       "                       -1.97661165e-02,  2.60626767e-02,  9.12914518e-04, -4.34975065e-02,\n",
+       "                       -2.43351050e-02, -2.52415165e-02, -1.68336742e-03, -3.83990258e-03,\n",
+       "                       -3.21206003e-02, -1.75539253e-03, -5.74760791e-03, -1.32581815e-02,\n",
+       "                       -1.14303064e-02, -9.56144091e-03, -3.09919217e-03,  1.45248398e-02,\n",
+       "                       -2.89597996e-02, -3.16334679e-03, -7.62297632e-03, -3.13032158e-02,\n",
+       "                       -9.86116193e-03, -8.94718897e-03, -2.10811645e-02, -2.30442844e-02,\n",
+       "                       -2.96968296e-02, -2.03740075e-02, -2.99714273e-03,  1.40837282e-02,\n",
+       "                       -7.52239348e-03, -9.83515941e-03, -1.95247680e-02, -3.18938721e-04,\n",
+       "                       -1.02474364e-02, -1.73518658e-02, -9.92205460e-03, -3.24068405e-02,\n",
+       "                       -1.67155545e-02, -1.11674285e-03, -5.44478605e-03, -2.58996198e-03,\n",
+       "                        3.79964826e-03, -2.50913482e-02, -1.45098930e-02, -6.08905044e-04,\n",
+       "                       -1.67759899e-02, -5.27007645e-03, -2.28520446e-02, -3.56323272e-02,\n",
+       "                       -2.78583020e-02, -1.34758893e-02, -3.02666277e-02,  5.92188118e-03,\n",
+       "                       -6.84797298e-03, -3.90171446e-03, -7.77713675e-03, -2.11589262e-02,\n",
+       "                        1.15987463e-02, -1.71765834e-02, -2.64393538e-02, -1.43159376e-02,\n",
+       "                       -5.10856174e-02, -9.35892202e-03, -1.20925158e-02, -2.55441926e-02,\n",
+       "                       -3.05666458e-02, -1.58648118e-02,  2.51809804e-04,  2.68528890e-03,\n",
+       "                        5.31575177e-03, -1.25083728e-02,  1.95785165e-02, -3.35548595e-02,\n",
+       "                       -2.30071484e-03, -7.61513133e-03,  2.28220434e-03, -1.32820485e-02,\n",
+       "                       -7.63081759e-03, -2.92753913e-02, -2.50888541e-02, -3.50784510e-02,\n",
+       "                       -2.57033855e-02,  4.95831668e-03, -1.38742791e-03,  1.31370546e-02,\n",
+       "                       -1.39689622e-02, -4.22309432e-03,  6.45820890e-03,  9.41634737e-03,\n",
+       "                       -1.96843199e-03, -1.86584722e-02, -1.09482966e-02, -1.01999249e-02,\n",
+       "                       -3.32051255e-02, -2.91097686e-02, -3.15269502e-03, -7.83520285e-03,\n",
+       "                        6.07596338e-03, -1.72054879e-02,  8.64808727e-03, -8.52772873e-03,\n",
+       "                        8.25701561e-03,  1.19442418e-02, -1.28312092e-02, -2.09524594e-02,\n",
+       "                        3.32198851e-03,  1.13781467e-02, -6.87208865e-03, -1.46617251e-03,\n",
+       "                        4.01694141e-03, -2.73761451e-02, -3.33210193e-02, -2.85687223e-02,\n",
+       "                       -1.53808054e-02, -2.30335258e-02, -3.43638062e-02, -4.63966839e-02,\n",
+       "                       -6.46878220e-03, -9.61133372e-03,  1.19184377e-02,  7.40477291e-04,\n",
+       "                        1.78783685e-02, -1.92430541e-02,  1.13883521e-03, -2.32018605e-02,\n",
+       "                       -1.42439594e-02, -2.12897211e-02, -1.34940271e-03, -9.22020245e-03,\n",
+       "                       -1.99375246e-02, -5.67923952e-03, -1.90065298e-02,  1.40939504e-02,\n",
+       "                       -2.25385018e-02, -1.80489309e-02, -4.51341942e-02,  4.81570465e-03,\n",
+       "                       -8.49147327e-03, -1.24779083e-02, -8.71823914e-03,  3.84293287e-03,\n",
+       "                       -9.64595191e-03,  4.06070799e-03, -1.71662867e-02,  8.08361359e-03,\n",
+       "                        4.40804521e-03,  3.59776284e-04, -5.90988342e-03,  3.04426067e-03,\n",
+       "                        5.96786430e-03,  1.60560627e-02, -3.93116521e-03, -2.79522557e-02,\n",
+       "                       -1.12993654e-03,  1.08668562e-02, -2.34042690e-03, -6.21559750e-03,\n",
+       "                       -4.45571216e-03, -9.82985925e-03, -9.75735299e-03, -1.84049146e-04,\n",
+       "                       -1.31330471e-02, -3.32680456e-02, -3.24590616e-02, -4.53572441e-03,\n",
+       "                       -4.74597607e-03, -2.42186561e-02, -9.95392073e-03, -2.64846124e-02,\n",
+       "                       -1.29699372e-02, -8.82939808e-03, -7.61334365e-03, -4.37332224e-03,\n",
+       "                       -4.84891981e-03, -2.47140750e-02, -9.76564921e-03, -1.71844754e-02,\n",
+       "                       -1.42972879e-02, -7.05601498e-02, -1.82255208e-02, -1.76547393e-02,\n",
+       "                       -2.88699996e-02, -2.51587853e-02, -5.03135212e-02, -2.16723774e-02,\n",
+       "                        3.29201878e-03, -1.39654111e-02, -4.10618857e-02, -1.55860493e-02,\n",
+       "                       -1.41667286e-02, -2.28298232e-02, -1.24321121e-03, -3.77828553e-02,\n",
+       "                       -4.00054269e-03, -9.93035268e-03, -2.89095137e-02, -6.19364670e-04,\n",
+       "                       -8.74714088e-03,  6.29378902e-03, -4.92501631e-03, -1.02337254e-02,\n",
+       "                       -3.39881144e-02, -9.59344767e-03,  2.02027299e-02, -3.52698043e-02,\n",
+       "                       -2.74944771e-02, -3.59510072e-02, -2.26303726e-03, -1.43029056e-02,\n",
+       "                       -1.29715437e-02, -8.12308956e-03,  1.62457244e-03,  3.21572809e-03,\n",
+       "                       -3.87752079e-03, -5.51236235e-02, -3.46730740e-05, -4.12351713e-02,\n",
+       "                       -1.47612831e-02, -1.24165532e-03, -9.91546735e-03, -3.65949795e-03,\n",
+       "                       -3.47949751e-03, -5.22602303e-03,  4.58968477e-03, -1.71663344e-03,\n",
+       "                       -1.45575954e-02, -8.76334962e-03,  6.46544434e-03,  9.01998859e-03,\n",
+       "                       -1.90767162e-02, -4.52305801e-04,  4.82608564e-03, -2.17572190e-02,\n",
+       "                       -2.26658508e-02, -3.69191691e-02, -1.36799123e-02, -1.03398168e-03,\n",
+       "                       -2.05054111e-03,  4.75895684e-03, -2.61215698e-02, -2.93900166e-02,\n",
+       "                       -1.68524461e-03, -5.52760288e-02,  4.33846656e-03, -3.15805897e-02,\n",
+       "                       -7.00849853e-03, -2.24584583e-02, -2.06082482e-02, -3.66691388e-02,\n",
+       "                       -4.40263771e-04, -1.99946407e-02, -2.51496676e-02, -7.82504212e-03,\n",
+       "                       -1.42441159e-02, -2.64672302e-02, -2.87744720e-02,  1.64955156e-03,\n",
+       "                       -3.01248636e-02, -1.64740607e-02, -1.62984226e-02, -2.10719258e-02,\n",
+       "                       -5.06412936e-03,  4.88817832e-03,  8.22153408e-03, -1.60204545e-02,\n",
+       "                        1.99927185e-02, -7.52092013e-03, -7.08112726e-03,  5.44202561e-03,\n",
+       "                       -1.41786495e-02, -1.19250556e-02, -1.44893001e-03,  2.39995029e-03,\n",
+       "                       -3.56406649e-03, -4.30744663e-02, -1.41634196e-02, -5.21397255e-02,\n",
+       "                        9.54880752e-03,  9.30607039e-03, -2.57963240e-02, -3.34309116e-02,\n",
+       "                       -1.39827076e-02, -3.60686071e-02, -1.42136365e-02, -8.58396932e-04,\n",
+       "                        2.00391700e-03, -2.73431186e-03, -6.61845356e-02, -1.31305335e-02,\n",
+       "                       -1.80768650e-02,  1.74880750e-03, -7.90730864e-03, -1.48344161e-02,\n",
+       "                       -2.08231173e-02, -9.09108203e-03, -1.70891769e-02, -4.69049588e-02,\n",
+       "                       -2.48399694e-02,  8.33071885e-04, -3.21469791e-02, -1.72363427e-02,\n",
+       "                       -3.02424617e-02, -6.71969168e-03, -3.47741949e-03,  7.35704461e-03,\n",
+       "                       -2.64123641e-02, -2.15444225e-03, -3.78520577e-04,  5.15253004e-03,\n",
+       "                       -5.63742453e-03, -1.09958490e-02, -2.77572637e-03,  5.70428139e-03,\n",
+       "                       -1.80389266e-02, -1.63417601e-03, -4.87279333e-03, -3.00320741e-02,\n",
+       "                       -4.01097490e-03,  1.28556753e-03,  3.73925245e-03, -2.40999996e-03,\n",
+       "                       -7.88006745e-03,  8.38188175e-03,  8.68380535e-03,  1.16670632e-03,\n",
+       "                        9.34353750e-03, -1.56317148e-02, -4.31581512e-02,  7.39409239e-04,\n",
+       "                       -1.12983510e-02, -2.41220146e-02, -1.41180642e-02, -6.60499930e-03,\n",
+       "                       -4.28165197e-02, -5.71281230e-03, -1.09349387e-02, -2.63239210e-03,\n",
+       "                       -4.80283499e-02, -2.84141172e-02, -5.64169139e-03, -7.94387888e-03,\n",
+       "                       -2.23233383e-02, -1.82960983e-02, -1.30282633e-03, -1.04888957e-02,\n",
+       "                       -3.02167088e-02, -6.29290659e-03, -4.82114628e-02, -3.22515122e-03,\n",
+       "                        7.33331218e-03,  9.07962676e-04, -9.51999985e-03, -6.66064536e-03,\n",
+       "                       -5.97348809e-02,  1.18374815e-02, -6.51209205e-02, -9.49933846e-03,\n",
+       "                       -5.09255426e-03, -1.59832719e-03, -2.32329424e-02,  8.66232347e-03,\n",
+       "                       -1.60102509e-02, -1.99118648e-02, -4.23244424e-02, -1.96607262e-02,\n",
+       "                       -4.89295041e-03, -3.10160760e-02, -2.57948111e-03,  1.46750594e-03,\n",
+       "                       -6.57568127e-03,  6.43703970e-04, -2.49447990e-02,  3.58949392e-03,\n",
+       "                        4.44795098e-03, -9.77641437e-03, -2.08274974e-03, -1.24405764e-04,\n",
+       "                        5.95462974e-04, -1.53845549e-02,  5.52301761e-03, -8.50411505e-03,\n",
+       "                       -3.42846066e-02, -7.10777938e-03, -3.12357210e-02,  4.27144440e-03,\n",
+       "                        3.05197551e-03, -2.08130665e-03, -1.88251026e-02, -2.55565699e-02,\n",
+       "                        6.63829735e-03, -1.57438703e-02,  8.91328615e-04, -4.25117016e-02,\n",
+       "                       -1.71183664e-02,  2.99484795e-03, -1.36743607e-02, -4.02842648e-02,\n",
+       "                        5.09863533e-03, -9.11824480e-02, -5.49048595e-02, -2.10822932e-03,\n",
+       "                       -1.06739160e-02, -8.31918791e-03,  1.30438653e-03, -4.87434305e-03,\n",
+       "                       -3.63245830e-02, -2.78281011e-02, -4.55521867e-02, -1.02171721e-02,\n",
+       "                       -5.75303752e-03, -5.24828993e-02,  4.32022708e-03, -6.54709432e-03,\n",
+       "                       -2.33584959e-02, -3.48939337e-02, -7.76915485e-03, -1.70537587e-02,\n",
+       "                       -7.09537463e-03, -2.94463374e-02, -1.72148533e-02, -2.75129508e-02,\n",
+       "                       -9.92418174e-03, -4.20823283e-02, -5.35115949e-04, -8.64472240e-03,\n",
+       "                       -1.03339497e-02,  8.30400363e-03, -5.02560586e-02, -4.49673412e-03,\n",
+       "                        1.16826333e-02,  6.03074534e-03, -2.10740622e-02, -3.57969111e-04,\n",
+       "                       -2.26442050e-03, -3.69632058e-02, -3.80805880e-03, -2.72384565e-03,\n",
+       "                       -4.61126193e-02, -1.18876994e-02, -5.34582324e-02, -2.87316609e-02,\n",
+       "                        3.55952932e-03, -1.65250469e-02, -3.89226130e-04, -4.53135855e-02,\n",
+       "                       -6.81232810e-02,  7.85995368e-03, -5.27369119e-02, -2.46313214e-02,\n",
+       "                       -1.38374474e-02, -4.60473709e-02, -1.61913000e-02, -2.28811782e-02,\n",
+       "                       -1.44989381e-03, -2.14263014e-02, -1.94337778e-02,  9.12142545e-03,\n",
+       "                        3.83314886e-03, -1.80786867e-02, -2.19889600e-02, -5.16478792e-02,\n",
+       "                        6.02354994e-03, -2.19489238e-03, -5.29424520e-03, -3.26552540e-02,\n",
+       "                        2.43347767e-03, -7.24237761e-04, -8.84142332e-03, -4.03352221e-03,\n",
+       "                       -1.16886729e-02,  4.68930881e-03, -7.22259469e-03,  1.23944611e-03,\n",
+       "                       -2.56220996e-02,  1.34780509e-02, -8.64358339e-03, -8.16160440e-03,\n",
+       "                       -4.98882588e-03,  9.65662021e-03, -2.68737953e-02, -2.60425098e-02,\n",
+       "                       -4.57399350e-04, -4.16626632e-02, -7.62977451e-03, -8.76080245e-03,\n",
+       "                       -2.78488602e-02,  9.84464679e-03,  1.59915872e-02, -1.19072513e-03,\n",
+       "                       -6.27124729e-03, -4.81498837e-02, -5.02719469e-02,  1.32357422e-02,\n",
+       "                       -1.59036852e-02, -1.48620699e-02, -2.75997724e-03, -1.50468238e-02,\n",
+       "                        1.27517467e-03, -3.25372294e-02, -3.67778167e-02, -2.34703533e-02,\n",
+       "                       -5.37173450e-02, -2.68561747e-02,  1.89162989e-03,  1.37316354e-03,\n",
+       "                       -5.83842816e-03, -1.23420609e-02, -2.72032358e-02, -7.56065827e-03,\n",
+       "                       -2.32472476e-02, -3.38321812e-02, -3.08886878e-02, -1.93791874e-02,\n",
+       "                       -3.79290641e-03, -3.19873244e-02, -2.72396225e-02,  2.30710757e-05,\n",
+       "                        2.83963210e-03, -2.40165298e-03,  5.99769992e-04, -6.07594289e-03,\n",
+       "                        3.56180884e-04, -1.26568293e-02, -3.26493755e-02, -2.29680166e-02,\n",
+       "                       -1.04542980e-02,  2.87670176e-03, -6.91271573e-03, -8.21887515e-03,\n",
+       "                       -8.12038220e-03,  4.77912789e-03, -3.76395807e-02, -3.34925354e-02,\n",
+       "                       -8.66606191e-04, -6.12113951e-03, -1.33696599e-02, -1.10623566e-02,\n",
+       "                       -7.43102422e-03, -1.73128415e-02, -2.33342331e-02, -8.00193474e-03,\n",
+       "                        1.08947763e-02,  1.58026591e-02, -5.78184798e-02, -1.50881810e-02,\n",
+       "                        7.65291695e-03, -1.97008159e-02, -2.75538564e-02, -6.19046739e-04,\n",
+       "                        1.03095146e-02, -9.23244283e-03, -1.66220032e-03, -1.08118318e-02,\n",
+       "                        1.54678084e-04, -3.01870927e-02,  1.21328533e-02,  1.23004033e-03,\n",
+       "                        5.92811080e-03, -1.74891129e-02, -7.97203276e-03, -3.60940173e-02,\n",
+       "                        1.91394368e-03,  3.88024375e-03,  4.38633189e-03, -3.56014445e-03,\n",
+       "                        2.77617783e-03,  1.29021546e-02, -8.97175167e-03,  4.41568252e-03,\n",
+       "                        3.88988736e-03, -1.73047297e-02, -1.00583248e-02, -1.68862753e-02,\n",
+       "                       -1.93748400e-02, -1.48645723e-02, -3.03139295e-02, -8.56790971e-03,\n",
+       "                        4.12521232e-03, -4.46134359e-02, -7.26060197e-03, -3.50069348e-03,\n",
+       "                       -1.19281905e-02, -4.15487774e-02, -2.92326454e-02, -3.62816104e-03,\n",
+       "                       -1.19600194e-02, -7.33099645e-03, -2.04111654e-02, -8.04576464e-03,\n",
+       "                       -2.37229131e-02, -8.75537284e-03,  1.32349450e-02,  1.51164429e-02,\n",
+       "                       -1.60937570e-02, -3.49037698e-03, -2.05647163e-02, -2.63897632e-03,\n",
+       "                       -1.45941060e-02, -2.63325628e-02, -1.41528817e-02, -2.86686718e-02,\n",
+       "                       -9.43535045e-02, -3.35978046e-02, -2.91406568e-02, -3.67362797e-02,\n",
+       "                       -3.62359881e-02,  1.02549302e-03,  1.69918574e-02, -5.69594232e-03,\n",
+       "                        7.00123608e-04,  3.14995268e-04, -1.63341183e-02, -2.89767552e-02,\n",
+       "                       -2.27220077e-02, -2.06695907e-02, -1.98527984e-02,  1.04915360e-02,\n",
+       "                       -2.67626513e-02, -1.36345634e-02, -3.16965915e-02, -8.29998776e-03,\n",
+       "                       -4.10684608e-02, -1.63521767e-02,  2.58752797e-03,  4.38870862e-03,\n",
+       "                       -1.61363035e-02, -2.45969519e-02, -1.71433333e-02,  8.06657877e-03,\n",
+       "                       -7.52152316e-03, -5.20398514e-03, -1.54290805e-02, -1.39743509e-02,\n",
+       "                       -4.71884683e-02, -2.41057146e-02, -3.73328105e-03, -1.17457667e-02,\n",
+       "                       -2.52842568e-02, -1.89893022e-02, -1.92469582e-02, -2.89458204e-02,\n",
+       "                       -7.09375087e-03, -2.78910063e-02, -1.45923123e-02,  8.32242332e-03,\n",
+       "                        1.10341394e-02, -2.75466032e-02,  6.03440392e-04, -1.99978463e-02,\n",
+       "                        1.23137678e-03, -4.57481015e-03, -7.94788240e-04, -2.74380017e-02,\n",
+       "                       -2.12681554e-02, -1.70778632e-02, -2.91341823e-02, -8.52928776e-03,\n",
+       "                       -2.18565483e-02, -6.50337413e-02,  3.29156080e-03,  1.06499000e-02,\n",
+       "                       -3.72955799e-02, -4.14734147e-02, -1.72340255e-02, -6.26930641e-03,\n",
+       "                        1.01680579e-02, -6.34323061e-03, -1.30798426e-02,  7.55766826e-03,\n",
+       "                       -2.14310363e-02,  9.08778515e-03, -8.65524448e-03, -2.03824677e-02,\n",
+       "                        5.15212771e-03, -2.98910979e-02, -9.82086174e-03, -1.11866295e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 0.0154759 , -0.02576332,  0.00404997, ..., -0.00521126,\n",
+       "                         0.04450608, -0.00370239],\n",
+       "                       [ 0.00077567,  0.00834506,  0.0076329 , ..., -0.00815574,\n",
+       "                         0.01575315,  0.00813787],\n",
+       "                       [-0.00243796, -0.02777552,  0.01094132, ...,  0.0040098 ,\n",
+       "                        -0.02047189,  0.00089158],\n",
+       "                       ...,\n",
+       "                       [ 0.00186367, -0.00701796,  0.00757268, ..., -0.01737169,\n",
+       "                         0.01926775,  0.02416652],\n",
+       "                       [-0.0084    ,  0.01725122,  0.00900519, ..., -0.01708463,\n",
+       "                        -0.00909884,  0.00487233],\n",
+       "                       [ 0.0065397 ,  0.02798023, -0.02916992, ..., -0.01719729,\n",
+       "                        -0.01533843, -0.01666596]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-3.23106279e-03,  2.73664594e-02,  5.38272317e-03,  5.71309309e-03,\n",
+       "                       -5.46634896e-04,  2.22013704e-03,  1.49773974e-02,  6.20168494e-03,\n",
+       "                       -8.19513667e-03,  2.82500382e-03, -1.69281359e-03,  8.09140690e-03,\n",
+       "                        3.99489095e-03, -1.23743759e-02, -1.45957735e-03,  9.94037371e-04,\n",
+       "                       -1.37627004e-02,  1.07092829e-03, -5.37764840e-03,  3.85741843e-03,\n",
+       "                       -1.25507563e-02, -2.63025658e-03, -2.56949551e-02, -1.47574842e-02,\n",
+       "                        1.66687154e-04,  6.83812471e-03,  5.22116423e-02,  4.76287492e-03,\n",
+       "                       -3.54400068e-03, -1.00526242e-02,  2.67302711e-03, -1.34961177e-02,\n",
+       "                        5.71534550e-03,  3.44656815e-04,  1.13983816e-02,  8.33609665e-04,\n",
+       "                        8.16243992e-05, -2.91870069e-03,  9.16961674e-03,  8.43085442e-03,\n",
+       "                        1.26124052e-02,  1.13547873e-03, -3.07413051e-03,  2.48491345e-03,\n",
+       "                       -1.02426969e-02, -7.00559095e-03,  1.00655975e-02,  5.83268981e-03,\n",
+       "                       -6.40235841e-03, -8.73017404e-03,  4.41089040e-03,  6.57710135e-02,\n",
+       "                        5.91188378e-04, -1.16737140e-03,  1.76836830e-02, -4.21638973e-02,\n",
+       "                        6.11289032e-03,  8.90626106e-03,  1.19158467e-02,  1.66966897e-02,\n",
+       "                       -1.35008171e-02, -2.18302105e-03, -3.30431946e-03,  5.49627980e-03,\n",
+       "                        5.10760397e-03,  4.36130771e-03, -9.61869257e-04,  6.56712474e-03,\n",
+       "                       -1.29337963e-02,  1.73818931e-04, -1.06565338e-02, -5.65454597e-04,\n",
+       "                        1.05172284e-02,  6.07373519e-03,  1.60178151e-02,  9.54098534e-04,\n",
+       "                       -1.52010552e-03,  2.04758998e-03,  3.65826790e-03, -1.61308097e-03,\n",
+       "                        2.04016408e-03, -7.15899467e-03,  1.57644860e-02,  6.89404318e-03,\n",
+       "                       -4.98051429e-03,  1.36183444e-02, -1.11078545e-02,  4.77834139e-03,\n",
+       "                       -4.08890983e-03,  1.22761610e-03, -9.72687174e-03, -5.43426862e-03,\n",
+       "                        5.72868623e-03,  8.23560078e-03,  4.25088033e-03,  6.56040898e-03,\n",
+       "                       -3.73540749e-03, -3.67505592e-04, -6.93008397e-03, -1.10439491e-02,\n",
+       "                        8.99555255e-03,  6.78608799e-03, -7.05241458e-03,  7.07072672e-03,\n",
+       "                       -7.77672278e-03, -3.20137828e-03,  5.53456182e-03,  8.69403780e-03,\n",
+       "                       -1.13175549e-02, -5.58375381e-03,  6.87037455e-03, -2.86886329e-03,\n",
+       "                       -1.47898463e-04,  4.64210461e-04, -6.16162084e-03, -1.36557659e-02,\n",
+       "                       -4.64734476e-04, -4.29263618e-03,  6.91230502e-03, -5.49995806e-03,\n",
+       "                        9.66041908e-03,  1.89107824e-02, -1.48586435e-02,  4.66622040e-03,\n",
+       "                        1.02710119e-02, -1.66305453e-02, -2.60800426e-03,  8.97507928e-03,\n",
+       "                        5.57979196e-03, -2.39700079e-03, -1.73408762e-02,  1.57802075e-03,\n",
+       "                        1.15453843e-02,  8.51698406e-03, -4.36798483e-03,  4.39273892e-03,\n",
+       "                       -2.21885880e-03, -1.43881072e-03,  1.14703132e-02,  5.67898387e-03,\n",
+       "                        2.75588818e-02, -1.64260734e-02,  6.63370965e-03, -5.56223327e-03,\n",
+       "                        2.42191995e-03, -1.73986191e-05, -3.89044464e-04,  4.85858833e-03,\n",
+       "                       -2.88667362e-02, -3.83435516e-04, -4.46539326e-03, -1.61635950e-02,\n",
+       "                       -1.60189755e-02, -1.93839613e-03, -1.38700102e-03, -7.39473943e-03,\n",
+       "                       -1.59791298e-03, -2.43104156e-03, -1.48518628e-03,  4.69057634e-03,\n",
+       "                        3.67661822e-04,  3.24303773e-03,  1.47970812e-03,  9.79221240e-03,\n",
+       "                        2.07747985e-03, -5.47263399e-02, -5.85918222e-03, -4.91376314e-03,\n",
+       "                        1.10718114e-02,  1.01551022e-02, -6.17357669e-03, -3.52678960e-03,\n",
+       "                       -1.31586101e-04, -8.31523817e-03, -2.64230114e-03,  7.03247543e-03,\n",
+       "                        1.19563367e-03, -6.30529178e-03, -1.12440642e-02, -2.18651537e-02,\n",
+       "                       -7.47868512e-03, -5.54595143e-03,  4.21872549e-03,  1.38848219e-02,\n",
+       "                        2.71460065e-03,  1.52492069e-03,  3.42028355e-03, -6.87557925e-03,\n",
+       "                       -7.84489699e-03, -7.98486359e-03,  1.17302900e-02, -1.24362262e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (dropout): Dropout(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_kwargs): Dict(\n",
+       "          (name): 'transformer'\n",
+       "          (trainable): True\n",
+       "          (dtype): 'float32'\n",
+       "        )\n",
+       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "        array([[[ 5.77921560e-03, -3.88921052e-03, -1.54703399e-02,\n",
+       "                  2.71260552e-03, -1.17281987e-03,  5.64246718e-03,\n",
+       "                 -1.62475388e-02, -1.30641898e-02, -9.67620593e-03,\n",
+       "                 -6.53728191e-03,  3.22625809e-03, -1.81555804e-02,\n",
+       "                 -7.86489749e-04,  1.00607835e-02, -6.77544205e-03,\n",
+       "                  6.74685044e-03, -1.41329011e-02,  1.02585871e-02,\n",
+       "                 -7.28685991e-04,  4.03142069e-03,  4.39096242e-04,\n",
+       "                 -4.50375676e-03,  1.21658696e-02, -1.32050067e-02,\n",
+       "                  1.09916562e-02, -9.18584689e-03,  1.58825647e-02,\n",
+       "                  6.07908377e-03, -4.47684480e-03,  1.18370922e-02,\n",
+       "                  1.15364771e-02, -3.48201720e-03,  1.25706978e-02,\n",
+       "                  1.18793100e-02, -7.91663118e-03, -5.18830167e-03,\n",
+       "                  1.16801783e-02,  1.23153096e-02,  1.45396972e-02,\n",
+       "                  4.84432047e-03, -1.39967902e-02, -7.34205171e-03,\n",
+       "                  6.88960496e-03, -4.80244606e-04, -3.73701565e-03,\n",
+       "                  2.92954943e-03,  5.28011005e-03, -1.43642398e-02,\n",
+       "                 -6.49388321e-03,  1.76820136e-03,  3.69729172e-03,\n",
+       "                  4.42247279e-03,  2.65734154e-03,  6.91311387e-03,\n",
+       "                  7.37582054e-03, -9.37604997e-03, -9.55958012e-03,\n",
+       "                  4.59122658e-03, -2.61855032e-03, -5.45106921e-03,\n",
+       "                 -2.24188925e-03, -1.47799598e-02,  1.99776878e-05,\n",
+       "                  1.44798942e-02,  4.12537856e-03, -1.03824753e-02,\n",
+       "                  1.49776665e-02, -1.27608450e-02,  1.58145204e-02,\n",
+       "                 -2.67113117e-03,  4.71693324e-03,  1.32525072e-03,\n",
+       "                  1.17467521e-02,  2.54606898e-03, -1.87330123e-03,\n",
+       "                 -1.63365975e-02,  1.25660775e-02,  4.72261745e-04,\n",
+       "                 -3.24072596e-03, -5.67087578e-03,  2.84392014e-03,\n",
+       "                 -9.57878365e-04,  4.79734456e-03, -3.40607972e-03,\n",
+       "                 -1.56934485e-02,  1.30519662e-02, -1.08772153e-02,\n",
+       "                 -1.45522840e-02,  1.02441367e-02, -1.09306127e-02,\n",
+       "                 -1.52621465e-02, -8.02758988e-03, -1.70116369e-02,\n",
+       "                  2.46132608e-03,  9.62964911e-03,  1.14286207e-02,\n",
+       "                  1.36147542e-02, -3.05876276e-03, -1.05851013e-02,\n",
+       "                  1.15959544e-03,  6.59532519e-03, -3.13923717e-03,\n",
+       "                  9.85705387e-03, -3.61493230e-03,  3.47581925e-03,\n",
+       "                 -9.08834487e-03,  4.82335308e-04,  1.37247914e-03,\n",
+       "                 -3.50609160e-04, -3.27813323e-03, -5.61682682e-04,\n",
+       "                 -1.22349560e-02, -5.72275929e-03,  7.51505466e-03,\n",
+       "                  1.81504886e-03,  1.19993566e-02,  8.24969495e-04,\n",
+       "                  8.65781913e-04, -1.57240516e-04,  1.39818722e-02,\n",
+       "                 -1.75076891e-02, -3.13527836e-03,  8.43182299e-03,\n",
+       "                 -3.18556733e-04,  2.53572455e-03, -2.53666658e-03,\n",
+       "                  1.31535046e-02,  8.38572159e-03, -6.97441213e-03,\n",
+       "                  1.84246916e-02, -6.73079258e-03,  1.49125131e-02,\n",
+       "                 -9.80807841e-03, -6.67121494e-03, -4.32675099e-03,\n",
+       "                  8.86392372e-04,  1.13881696e-02, -3.64286243e-03,\n",
+       "                 -1.27661536e-02,  5.76637033e-03, -1.87941324e-02,\n",
+       "                 -6.02238160e-03, -1.03929741e-02, -8.80926661e-03,\n",
+       "                 -3.80813982e-03,  9.45396535e-03, -1.88170914e-02,\n",
+       "                  8.08288343e-03, -1.36293136e-02,  7.88161159e-03,\n",
+       "                 -9.55417287e-03,  6.48603542e-03,  4.02289443e-03,\n",
+       "                  6.29892433e-03, -4.87634493e-03,  9.85367782e-03,\n",
+       "                 -1.36604840e-02,  1.20045419e-03,  7.17868144e-03,\n",
+       "                  3.35687096e-03, -1.46159260e-02,  1.09550674e-02,\n",
+       "                 -1.39297824e-02, -2.44791643e-03,  1.03627667e-02,\n",
+       "                 -1.55246304e-02,  4.99522220e-03, -6.11118600e-03,\n",
+       "                 -9.54537187e-03,  1.51828043e-02, -5.09335613e-03,\n",
+       "                  4.23298730e-03, -1.82825513e-02,  6.68561691e-03,\n",
+       "                 -1.18543836e-03,  4.25768830e-03, -6.68309815e-03,\n",
+       "                 -3.44021083e-03,  6.31043361e-03, -6.84611080e-03,\n",
+       "                  3.71403666e-03,  1.25054484e-02, -2.05762568e-03,\n",
+       "                 -2.28846306e-03, -7.55040813e-03,  7.25472951e-03,\n",
+       "                  3.65318428e-03, -6.14711316e-03, -1.25991441e-02,\n",
+       "                  2.10878160e-03,  9.57752764e-03,  3.22542666e-03]]],\n",
+       "              dtype=float32)>\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_pre): PrepareTransformerInputs(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_post): LastHiddenState(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_post): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): TransformerOutputToRagged(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TransformerInferenceHiddenState(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_pre): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): SequenceCausalLastInference(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): ExtractMaskFromTargets(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "  )\n",
+       "  (test_pre): SequencePredictLast(\n",
+       "    (_pre): SequentialBlock(\n",
+       "      (layers): List(\n",
+       "        (0): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "        (1): PrepareFeatures(\n",
+       "          (prepare_lists): PrepareListFeatures()\n",
+       "        )\n",
+       "      )\n",
+       "      (prepare_lists): PrepareListFeatures()\n",
+       "    )\n",
+       "    (transformer): XLNetBlock(\n",
+       "      (transformer): TFXLNetMainLayer(\n",
+       "        (word_embedding): TFSharedEmbeddings(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (layer): List(\n",
+       "          (0): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9989502 , 1.0576062 , 1.0346638 , 1.0038435 , 1.0374217 ,\n",
+       "                       0.9977826 , 0.97864133, 0.98316896, 0.9935035 , 0.9916651 ,\n",
+       "                       1.015681  , 1.0290096 , 0.9808166 , 1.0257354 , 1.000677  ,\n",
+       "                       0.9632928 , 1.044944  , 1.0062993 , 1.0191413 , 1.0176857 ,\n",
+       "                       1.0402725 , 1.0175707 , 0.98682123, 0.97339106, 0.9845099 ,\n",
+       "                       0.9804151 , 1.0213319 , 1.0054113 , 1.0528314 , 0.9889174 ,\n",
+       "                       0.9937365 , 1.0097672 , 1.0127248 , 1.006905  , 1.015017  ,\n",
+       "                       1.0074348 , 1.0236213 , 1.0611415 , 0.9670407 , 0.95555675,\n",
+       "                       1.016661  , 1.0175687 , 0.9885798 , 1.0268141 , 0.99260455,\n",
+       "                       1.0130196 , 0.96392965, 1.0521348 , 1.005183  , 0.9902206 ,\n",
+       "                       0.986818  , 1.0324047 , 1.0282564 , 1.0029398 , 0.97551364,\n",
+       "                       1.0035061 , 1.0430536 , 1.0239351 , 1.0063419 , 1.0468767 ,\n",
+       "                       1.0370821 , 0.98937815, 0.9625464 , 0.99105746, 1.0044199 ,\n",
+       "                       1.0211848 , 0.9974975 , 1.022141  , 1.0122687 , 1.0115696 ,\n",
+       "                       1.0342648 , 0.9763004 , 1.007962  , 1.0222591 , 1.000258  ,\n",
+       "                       0.99757713, 0.9835959 , 1.0415024 , 0.9692734 , 1.0120147 ,\n",
+       "                       0.9842971 , 0.97031707, 0.9745148 , 1.0065541 , 0.9942128 ,\n",
+       "                       1.0173663 , 1.0420299 , 1.0106033 , 1.0227505 , 0.97091013,\n",
+       "                       0.99910146, 1.0036598 , 0.9966806 , 1.0628989 , 0.9995429 ,\n",
+       "                       1.0375715 , 1.0593297 , 1.022408  , 1.0155457 , 1.0130228 ,\n",
+       "                       0.98888063, 1.0000523 , 1.0237609 , 1.0044953 , 0.99615127,\n",
+       "                       0.9612573 , 1.0305171 , 1.0335096 , 1.0161718 , 1.0182958 ,\n",
+       "                       1.0195628 , 0.98464763, 1.0137556 , 1.0186883 , 1.0172639 ,\n",
+       "                       0.9758079 , 1.0113739 , 1.0006955 , 1.0438493 , 1.0092262 ,\n",
+       "                       1.0062629 , 1.0154696 , 1.0118166 , 0.99463564, 1.013566  ,\n",
+       "                       1.0239315 , 0.9455156 , 1.0182073 , 1.0032462 , 0.96416503,\n",
+       "                       1.0194111 , 1.032431  , 0.9965644 , 1.002404  , 1.0118709 ,\n",
+       "                       1.0253462 , 0.996495  , 1.0395119 , 1.0123875 , 1.0056695 ,\n",
+       "                       1.028315  , 1.0058223 , 1.0289586 , 0.9974421 , 1.0387748 ,\n",
+       "                       0.99552464, 1.0344083 , 1.031274  , 1.025091  , 1.0181113 ,\n",
+       "                       1.0315706 , 1.0073855 , 0.9761123 , 1.0203675 , 0.9985076 ,\n",
+       "                       0.96607   , 1.0553861 , 0.98623693, 1.026023  , 1.0687001 ,\n",
+       "                       0.9897466 , 1.0263782 , 1.0701145 , 0.96022284, 0.978006  ,\n",
+       "                       1.0212058 , 1.0096318 , 0.98825616, 0.99732673, 1.0245711 ,\n",
+       "                       1.0135304 , 1.0025978 , 0.9863238 , 1.0285221 , 0.9803323 ,\n",
+       "                       1.0442008 , 1.0270132 , 1.0278133 , 0.9959899 , 1.0158675 ,\n",
+       "                       0.97460854, 1.0063546 , 1.0306209 , 1.0761561 , 1.0264145 ,\n",
+       "                       0.9893562 , 1.0281392 , 1.0187237 , 0.97821856, 1.0211488 ,\n",
+       "                       1.0148977 , 0.98631346], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01564801,  0.05031539,  0.00410429, -0.01065608, -0.02726947,\n",
+       "                        0.02508902,  0.00038222,  0.0164835 , -0.02004843, -0.02176234,\n",
+       "                       -0.04638448,  0.02115005,  0.02569144, -0.00894257,  0.00444741,\n",
+       "                        0.01192614, -0.02655895, -0.01222136, -0.02186232,  0.02919175,\n",
+       "                       -0.01799272,  0.0262308 , -0.00777147,  0.01395177, -0.01551217,\n",
+       "                        0.02763644,  0.02442515,  0.03102502, -0.01572912,  0.01635238,\n",
+       "                       -0.01084259, -0.00567258, -0.02127197,  0.01155333,  0.00471407,\n",
+       "                        0.03379904,  0.00862479, -0.01966641, -0.02059177, -0.03856507,\n",
+       "                        0.01532526,  0.00795538,  0.00731614,  0.03556439,  0.01201337,\n",
+       "                       -0.00874254, -0.04334877,  0.01023173, -0.01064972,  0.02030286,\n",
+       "                       -0.01186844,  0.04643561, -0.01453828,  0.02887264, -0.00915464,\n",
+       "                       -0.02330581, -0.03368274,  0.01621977,  0.0291714 ,  0.00578914,\n",
+       "                       -0.00057888,  0.0185579 ,  0.00812104, -0.00980973,  0.01644247,\n",
+       "                        0.00089342, -0.0025648 ,  0.01388613, -0.01212206,  0.00365601,\n",
+       "                        0.01405088,  0.011668  ,  0.00313982,  0.02685886,  0.0206239 ,\n",
+       "                        0.0058649 , -0.00263495,  0.04062287, -0.03826027, -0.00315069,\n",
+       "                       -0.01107017, -0.00134605, -0.00060359,  0.00954621, -0.01417858,\n",
+       "                        0.02703607, -0.02937767, -0.01266916,  0.00296571, -0.01783368,\n",
+       "                       -0.01472187,  0.01814925, -0.0040843 ,  0.00669216,  0.034233  ,\n",
+       "                        0.00960267, -0.02075798, -0.03373486,  0.02624991, -0.01618384,\n",
+       "                        0.02431716,  0.02215847, -0.02458511,  0.00027981,  0.00465162,\n",
+       "                       -0.01309961, -0.00513958,  0.00866651, -0.02965664,  0.01000427,\n",
+       "                        0.04259624,  0.01365784,  0.00716883, -0.02355205, -0.00349983,\n",
+       "                        0.01176547,  0.01298331, -0.00865425,  0.01498848, -0.01449755,\n",
+       "                        0.02386551, -0.0146591 ,  0.02687347, -0.01478878,  0.00625256,\n",
+       "                        0.00282382,  0.01835389,  0.01584293,  0.02580659, -0.01374832,\n",
+       "                       -0.01775724, -0.00105102, -0.02854055,  0.00875541,  0.00043491,\n",
+       "                       -0.04452521, -0.01476665, -0.01148101, -0.01217891, -0.00160031,\n",
+       "                        0.0057057 , -0.0168117 ,  0.03591807,  0.00512471,  0.0027506 ,\n",
+       "                       -0.00039103,  0.00481961, -0.01031037,  0.01574421, -0.02259344,\n",
+       "                       -0.01047808,  0.00495247, -0.02535135, -0.01565124,  0.00210174,\n",
+       "                       -0.00781817, -0.04997245, -0.01766316, -0.01142531, -0.01968011,\n",
+       "                        0.00650187,  0.03887424, -0.00735652, -0.00948206,  0.0062764 ,\n",
+       "                       -0.01378202, -0.01511695,  0.04289937,  0.01610814,  0.02360756,\n",
+       "                        0.0086963 ,  0.01288334, -0.0007249 ,  0.00063419,  0.00933304,\n",
+       "                        0.00634397,  0.00677541, -0.01751881, -0.01359569, -0.009512  ,\n",
+       "                        0.00685608, -0.01254726, -0.01196539,  0.00532526, -0.03268864,\n",
+       "                       -0.00706812, -0.01631153, -0.01945196, -0.0313373 , -0.00119667,\n",
+       "                       -0.02276768,  0.01590502], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._0/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.07465401,  0.06472938,  0.07060932, ..., -0.08073311,\n",
+       "                        0.07338328,  0.06063193],\n",
+       "                      [ 0.06749107, -0.07578631,  0.07652911, ...,  0.07553609,\n",
+       "                       -0.07781389,  0.05728458],\n",
+       "                      [ 0.07914475, -0.07096852,  0.0758997 , ..., -0.07451519,\n",
+       "                        0.08720462,  0.07374965],\n",
+       "                      ...,\n",
+       "                      [-0.0663526 , -0.06575809,  0.0565715 , ...,  0.09362454,\n",
+       "                        0.04912814,  0.08134829],\n",
+       "                      [ 0.07272896,  0.05966271,  0.05624672, ...,  0.05355152,\n",
+       "                        0.06333862,  0.07617778],\n",
+       "                      [-0.04439021,  0.05825948, -0.05253003, ..., -0.04820357,\n",
+       "                       -0.06917557,  0.07237349]],\n",
+       "              \n",
+       "                     [[-0.10011533, -0.11412048, -0.09385281, ...,  0.08717619,\n",
+       "                       -0.08888666, -0.0993549 ],\n",
+       "                      [-0.05448947,  0.03732244, -0.03167331, ..., -0.04544163,\n",
+       "                        0.04660046, -0.02991796],\n",
+       "                      [-0.06950059,  0.07803331, -0.08058758, ...,  0.07841507,\n",
+       "                       -0.10456846, -0.08787055],\n",
+       "                      ...,\n",
+       "                      [ 0.0630033 ,  0.06069206, -0.06263281, ..., -0.04891612,\n",
+       "                       -0.0542945 , -0.07239168],\n",
+       "                      [-0.00758942,  0.01119974,  0.01332581, ..., -0.01286488,\n",
+       "                        0.00207401,  0.00079829],\n",
+       "                      [ 0.06658119, -0.05085666,  0.06656442, ...,  0.07660682,\n",
+       "                        0.07427317, -0.06252758]],\n",
+       "              \n",
+       "                     [[-0.11073057, -0.10081359, -0.12153006, ...,  0.11317257,\n",
+       "                       -0.10553624, -0.10985853],\n",
+       "                      [-0.09318667,  0.07455036, -0.090079  , ..., -0.09517727,\n",
+       "                        0.08885422, -0.09878843],\n",
+       "                      [-0.0701437 ,  0.05605372, -0.07704974, ...,  0.06382198,\n",
+       "                       -0.07163794, -0.06376936],\n",
+       "                      ...,\n",
+       "                      [ 0.06640515,  0.06422191, -0.03999973, ..., -0.05697949,\n",
+       "                       -0.05197844, -0.0753065 ],\n",
+       "                      [-0.0482451 , -0.03754503, -0.0361612 , ..., -0.0442449 ,\n",
+       "                       -0.05040614, -0.03695468],\n",
+       "                      [ 0.08578547, -0.11016572,  0.09932826, ...,  0.09526014,\n",
+       "                        0.07219096, -0.09667978]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.08899453,  0.08351997,  0.08101685, ..., -0.06629151,\n",
+       "                        0.08502361,  0.07621197],\n",
+       "                      [ 0.05743176, -0.06251122,  0.06233266, ...,  0.05806597,\n",
+       "                       -0.06832655,  0.03377869],\n",
+       "                      [ 0.10216253, -0.08750022,  0.07817484, ..., -0.08476172,\n",
+       "                        0.05987116,  0.07416327],\n",
+       "                      ...,\n",
+       "                      [-0.07072166, -0.06108825,  0.06093866, ...,  0.05758123,\n",
+       "                        0.06326196,  0.06588235],\n",
+       "                      [ 0.01994142,  0.02066598,  0.03568684, ...,  0.01882937,\n",
+       "                        0.02734543,  0.02604944],\n",
+       "                      [-0.06781037,  0.06784602, -0.07872033, ..., -0.07433689,\n",
+       "                       -0.09181566,  0.08851271]],\n",
+       "              \n",
+       "                     [[-0.02606016, -0.02737696, -0.01055808, ...,  0.02336601,\n",
+       "                       -0.01676143, -0.02515292],\n",
+       "                      [-0.01419585, -0.00202125,  0.00385271, ...,  0.00217426,\n",
+       "                       -0.00383362, -0.02988884],\n",
+       "                      [ 0.05142671, -0.03943966,  0.0374524 , ..., -0.02985014,\n",
+       "                        0.05794137,  0.04038725],\n",
+       "                      ...,\n",
+       "                      [ 0.04279425,  0.04664461, -0.04529398, ..., -0.03161315,\n",
+       "                       -0.03006786, -0.04242131],\n",
+       "                      [ 0.06091673,  0.04921605,  0.03961667, ...,  0.04841657,\n",
+       "                        0.06400887,  0.07853462],\n",
+       "                      [ 0.0035573 ,  0.00629171, -0.00918715, ..., -0.01010308,\n",
+       "                        0.00100685,  0.01805877]],\n",
+       "              \n",
+       "                     [[-0.19375055, -0.20809007, -0.20518027, ...,  0.20026137,\n",
+       "                       -0.19558044, -0.19182122],\n",
+       "                      [-0.21756965,  0.22040519, -0.2200476 , ..., -0.22124195,\n",
+       "                        0.22402586, -0.20523962],\n",
+       "                      [-0.24113753,  0.22089581, -0.2396485 , ...,  0.23252076,\n",
+       "                       -0.2084851 , -0.22979937],\n",
+       "                      ...,\n",
+       "                      [ 0.22055982,  0.21025379, -0.21311197, ..., -0.23441206,\n",
+       "                       -0.20681979, -0.21566269],\n",
+       "                      [-0.1896753 , -0.17930022, -0.17912784, ..., -0.16986312,\n",
+       "                       -0.18861811, -0.14778696],\n",
+       "                      [ 0.19786158, -0.22164111,  0.23266463, ...,  0.21371098,\n",
+       "                        0.1959268 , -0.20853978]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._0/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.03982621,  0.04634362,  0.02969166, ..., -0.04535549,\n",
+       "                        0.03976392,  0.03817748],\n",
+       "                      [ 0.02065867, -0.02277696,  0.01796075, ...,  0.0193889 ,\n",
+       "                       -0.01798368, -0.00012475],\n",
+       "                      [-0.05693278,  0.06433725, -0.06601404, ...,  0.07023417,\n",
+       "                       -0.0644145 , -0.05952094],\n",
+       "                      ...,\n",
+       "                      [ 0.03724918,  0.02224839, -0.01713489, ..., -0.01764813,\n",
+       "                       -0.03095339, -0.02385698],\n",
+       "                      [-0.02685979, -0.03892907, -0.0352765 , ..., -0.03908732,\n",
+       "                       -0.03731468, -0.03116913],\n",
+       "                      [ 0.02750592, -0.02940916,  0.03723293, ...,  0.04330644,\n",
+       "                        0.01890267, -0.01717454]],\n",
+       "              \n",
+       "                     [[-0.03354729, -0.03685676, -0.03322748, ...,  0.00274901,\n",
+       "                       -0.01665791, -0.0148938 ],\n",
+       "                      [-0.03874097,  0.05202375, -0.04577698, ..., -0.02982778,\n",
+       "                        0.05710219, -0.03194526],\n",
+       "                      [ 0.00738964, -0.00594813, -0.02685028, ...,  0.01640934,\n",
+       "                       -0.00999039, -0.0257416 ],\n",
+       "                      ...,\n",
+       "                      [ 0.05005649,  0.04650406, -0.0339541 , ..., -0.03088401,\n",
+       "                       -0.03641143, -0.05107675],\n",
+       "                      [-0.03754756, -0.04477862, -0.02373394, ..., -0.04477538,\n",
+       "                       -0.0326349 , -0.0359891 ],\n",
+       "                      [ 0.04423146, -0.05135956,  0.05516965, ...,  0.06424858,\n",
+       "                        0.03283761, -0.06065867]],\n",
+       "              \n",
+       "                     [[ 0.08610801,  0.0792455 ,  0.08716258, ..., -0.08730735,\n",
+       "                        0.0859801 ,  0.06665679],\n",
+       "                      [ 0.02973051, -0.05987825,  0.0507506 , ...,  0.03947309,\n",
+       "                       -0.04543421,  0.05414715],\n",
+       "                      [ 0.04466533, -0.06287424,  0.05043598, ..., -0.04664594,\n",
+       "                        0.07069402,  0.04471494],\n",
+       "                      ...,\n",
+       "                      [-0.0437069 , -0.03004871,  0.04597325, ...,  0.04288679,\n",
+       "                        0.02764161,  0.03305215],\n",
+       "                      [ 0.02189361,  0.03663293,  0.03532149, ...,  0.02713455,\n",
+       "                        0.02633648,  0.03900206],\n",
+       "                      [-0.06676853,  0.05484065, -0.06289707, ..., -0.07485867,\n",
+       "                       -0.07037278,  0.0603456 ]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00853173,  0.02272682, -0.00073874, ..., -0.02110041,\n",
+       "                        0.00689003,  0.002274  ],\n",
+       "                      [ 0.02738365, -0.01524352,  0.00340239, ...,  0.00913391,\n",
+       "                       -0.00663603,  0.00939901],\n",
+       "                      [-0.01470056, -0.00161049, -0.0129185 , ...,  0.0195723 ,\n",
+       "                       -0.00395532, -0.02813762],\n",
+       "                      ...,\n",
+       "                      [-0.01113444,  0.0028391 , -0.00770884, ..., -0.00617313,\n",
+       "                       -0.00045944,  0.01071145],\n",
+       "                      [-0.03531639, -0.02128815, -0.01397392, ..., -0.0180376 ,\n",
+       "                       -0.02603853, -0.01086281],\n",
+       "                      [ 0.03301041, -0.05099879,  0.03797607, ...,  0.0372763 ,\n",
+       "                        0.019474  , -0.02953582]],\n",
+       "              \n",
+       "                     [[-0.07365561, -0.06636481, -0.07385948, ...,  0.07757259,\n",
+       "                       -0.06353518, -0.0606568 ],\n",
+       "                      [-0.03435581,  0.04452751, -0.07223876, ..., -0.03295099,\n",
+       "                        0.05674427, -0.05030363],\n",
+       "                      [-0.08901997,  0.1159115 , -0.12224417, ...,  0.10312869,\n",
+       "                       -0.11139406, -0.10536477],\n",
+       "                      ...,\n",
+       "                      [ 0.07236408,  0.05375469, -0.03755553, ..., -0.057065  ,\n",
+       "                       -0.03634366, -0.04288524],\n",
+       "                      [-0.07081108, -0.09506831, -0.084653  , ..., -0.100339  ,\n",
+       "                       -0.07624822, -0.11304466],\n",
+       "                      [ 0.04854869, -0.06215874,  0.05231146, ...,  0.06709328,\n",
+       "                        0.04539494, -0.05279939]],\n",
+       "              \n",
+       "                     [[-0.04500421, -0.05344107, -0.04957467, ...,  0.05529626,\n",
+       "                       -0.05289495, -0.04973142],\n",
+       "                      [-0.05061682,  0.03426979, -0.03778715, ..., -0.0450584 ,\n",
+       "                        0.03818877, -0.0593758 ],\n",
+       "                      [-0.01262661,  0.01937299, -0.03704944, ...,  0.01548174,\n",
+       "                       -0.01348604, -0.00987264],\n",
+       "                      ...,\n",
+       "                      [-0.02322798, -0.01663445,  0.00602973, ...,  0.00691767,\n",
+       "                        0.01240894,  0.00756894],\n",
+       "                      [-0.03177977, -0.02034881, -0.02087708, ..., -0.0205056 ,\n",
+       "                       -0.0258639 , -0.02174775],\n",
+       "                      [-0.05961272,  0.05352452, -0.03566991, ..., -0.05334552,\n",
+       "                       -0.05424745,  0.05725127]]], dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._0/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 8.82501435e-03, -1.81485433e-02, -8.17508716e-03, ...,\n",
+       "                        1.62277259e-02, -1.62000190e-02,  1.15035567e-02],\n",
+       "                      [ 2.51571126e-02, -3.34611163e-02,  1.41268084e-02, ...,\n",
+       "                       -3.19808088e-02,  3.82376499e-02, -3.10915485e-02],\n",
+       "                      [-6.06647506e-02,  1.32400207e-02, -8.13229196e-03, ...,\n",
+       "                        8.38858355e-03,  5.15362853e-03, -1.90225989e-03],\n",
+       "                      ...,\n",
+       "                      [-6.57490119e-02,  4.94322879e-03, -2.49304082e-02, ...,\n",
+       "                       -6.18668552e-03, -5.20401858e-02,  8.34745169e-02],\n",
+       "                      [-3.45638022e-02,  2.44357400e-02, -7.28670508e-03, ...,\n",
+       "                       -1.30881947e-02, -4.00486924e-02,  5.86403720e-03],\n",
+       "                      [-2.07821764e-02,  1.02347406e-02,  2.27580033e-02, ...,\n",
+       "                        1.92762651e-02, -3.48887183e-02, -1.13282437e-02]],\n",
+       "              \n",
+       "                     [[-1.76593959e-02, -1.85443147e-03,  4.83898818e-03, ...,\n",
+       "                       -9.99075454e-03,  3.24669713e-03, -4.43941802e-02],\n",
+       "                      [-5.83989313e-03, -6.99072406e-02,  1.35309575e-02, ...,\n",
+       "                        5.29645346e-02, -1.33149689e-02,  2.91646048e-02],\n",
+       "                      [ 4.29321118e-02, -6.51830807e-02,  4.40529967e-03, ...,\n",
+       "                        8.74261186e-02, -6.65134713e-02, -5.61560690e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.39351594e-02,  2.17647222e-03, -4.02587876e-02, ...,\n",
+       "                       -7.02112988e-02,  4.79908846e-02, -1.94322243e-02],\n",
+       "                      [-5.39308675e-02,  5.15811937e-03,  6.02166802e-02, ...,\n",
+       "                       -3.96643096e-04, -9.76049807e-03,  6.58039004e-03],\n",
+       "                      [-2.68425737e-02,  2.93749329e-02,  2.32460052e-02, ...,\n",
+       "                        2.81376857e-02,  1.71583111e-03,  4.04979177e-02]],\n",
+       "              \n",
+       "                     [[ 5.99081703e-02,  1.32145938e-02, -1.37950107e-02, ...,\n",
+       "                        1.58467181e-02,  2.21179631e-02, -3.10591478e-02],\n",
+       "                      [-1.04912473e-02, -3.39366794e-02,  4.61946102e-03, ...,\n",
+       "                       -2.24291924e-02, -1.43401511e-02,  1.38219623e-02],\n",
+       "                      [-1.01273423e-02,  1.48381582e-02, -4.33605276e-02, ...,\n",
+       "                        2.07444225e-02, -2.31453162e-02,  2.67610997e-02],\n",
+       "                      ...,\n",
+       "                      [-1.47811165e-02,  5.50152846e-02,  2.50921212e-02, ...,\n",
+       "                        4.82778735e-02,  1.85099486e-02, -7.27660023e-03],\n",
+       "                      [ 5.49992770e-02,  4.21824865e-02,  3.78878461e-03, ...,\n",
+       "                        1.14455875e-02,  4.07072529e-02,  4.62389104e-02],\n",
+       "                      [ 1.08908974e-02,  3.28515598e-05,  1.69772115e-02, ...,\n",
+       "                       -7.30852596e-03, -4.23545465e-02, -5.55225089e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-5.12910634e-03,  2.84914747e-02, -2.16970164e-02, ...,\n",
+       "                        1.09091457e-02, -2.34313798e-03,  7.27258846e-02],\n",
+       "                      [ 1.71632618e-02,  2.59486139e-02,  6.42891973e-02, ...,\n",
+       "                        8.23925342e-03, -1.25392321e-02, -4.27715927e-02],\n",
+       "                      [ 6.47857040e-02, -1.11361174e-02, -1.06392875e-02, ...,\n",
+       "                        4.77908319e-03,  6.14560097e-02,  4.98344228e-02],\n",
+       "                      ...,\n",
+       "                      [-1.60309952e-02,  2.19550282e-02, -1.62355490e-02, ...,\n",
+       "                       -1.53448032e-02,  2.50068977e-02, -1.37609430e-02],\n",
+       "                      [ 1.28832795e-02, -6.27421066e-02, -1.28271915e-02, ...,\n",
+       "                       -1.47589855e-02,  4.49947305e-02, -3.00725386e-03],\n",
+       "                      [ 4.96148095e-02, -2.32065357e-02,  8.94444250e-03, ...,\n",
+       "                        5.69443498e-03, -5.21871001e-02,  1.48959951e-02]],\n",
+       "              \n",
+       "                     [[-2.43751667e-02, -2.63015311e-02, -9.91073903e-04, ...,\n",
+       "                        5.19807525e-02, -3.73826288e-02, -2.58061383e-02],\n",
+       "                      [ 1.18823745e-03, -2.27057375e-02,  3.20175011e-03, ...,\n",
+       "                        9.23438463e-03, -7.12416694e-03, -5.15584322e-03],\n",
+       "                      [ 2.86849737e-02, -4.74519283e-02, -3.00998576e-02, ...,\n",
+       "                       -6.85654283e-02,  2.83939075e-02,  5.74304946e-02],\n",
+       "                      ...,\n",
+       "                      [ 9.82065499e-03, -2.29216348e-02,  1.66053511e-02, ...,\n",
+       "                        2.80485600e-02, -1.46161458e-02,  4.36083637e-02],\n",
+       "                      [ 1.72685310e-02, -2.72968132e-02,  4.18808758e-02, ...,\n",
+       "                        5.22726169e-03,  7.23373517e-02,  7.67718954e-03],\n",
+       "                      [-6.72384957e-03, -3.01094428e-02, -2.62498809e-03, ...,\n",
+       "                       -3.76314186e-02, -3.26726474e-02,  5.65500148e-02]],\n",
+       "              \n",
+       "                     [[ 3.71731184e-02, -2.73698959e-02, -5.21483691e-03, ...,\n",
+       "                       -2.77282223e-02,  3.19673494e-02, -1.73348412e-02],\n",
+       "                      [-2.62228353e-03,  1.15231602e-02, -1.73508134e-02, ...,\n",
+       "                        1.22574195e-02, -1.99704338e-02, -2.80665662e-02],\n",
+       "                      [ 1.84773095e-02, -6.69627450e-03, -3.08147967e-02, ...,\n",
+       "                       -3.48117203e-03,  1.08470665e-02,  9.13256314e-03],\n",
+       "                      ...,\n",
+       "                      [ 3.78374979e-02, -6.28762180e-04, -2.29029153e-02, ...,\n",
+       "                        1.84090305e-02,  5.42607829e-02,  1.34296734e-02],\n",
+       "                      [-1.68974604e-02, -6.14933344e-03, -2.86198426e-02, ...,\n",
+       "                        8.02587252e-03,  1.66239664e-02,  2.09994633e-02],\n",
+       "                      [-7.23446459e-02,  3.69328330e-03,  6.00261725e-02, ...,\n",
+       "                        5.20618679e-03, -4.76943627e-02,  1.20505150e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._0/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.0154241 , -0.02136171,  0.00170994, ..., -0.04621289,\n",
+       "                        0.00897064,  0.0463121 ],\n",
+       "                      [-0.01717931,  0.01112157, -0.00710914, ...,  0.02496267,\n",
+       "                       -0.02168625, -0.04272152],\n",
+       "                      [ 0.01171657, -0.01287686,  0.01773049, ..., -0.01829099,\n",
+       "                        0.02109   , -0.01227092],\n",
+       "                      ...,\n",
+       "                      [-0.00849649,  0.03056782, -0.02829858, ...,  0.03839231,\n",
+       "                       -0.02428488, -0.01989117],\n",
+       "                      [ 0.03086454, -0.02407495, -0.00397067, ..., -0.02522042,\n",
+       "                        0.02546382,  0.04083524],\n",
+       "                      [ 0.0364135 , -0.01701799,  0.01753394, ..., -0.00421321,\n",
+       "                       -0.04532532,  0.00725917]],\n",
+       "              \n",
+       "                     [[-0.04019788, -0.04662199,  0.01315966, ...,  0.00322181,\n",
+       "                        0.05691342,  0.00376351],\n",
+       "                      [-0.03829328, -0.03602795,  0.02943544, ...,  0.03456193,\n",
+       "                        0.01103387,  0.00689813],\n",
+       "                      [ 0.01527943,  0.00088766, -0.02906663, ..., -0.0212947 ,\n",
+       "                        0.01063941, -0.0006206 ],\n",
+       "                      ...,\n",
+       "                      [-0.01832024, -0.00504218,  0.0385666 , ...,  0.00924117,\n",
+       "                       -0.02005848, -0.05142944],\n",
+       "                      [ 0.01042571, -0.00353254, -0.02857197, ...,  0.00440118,\n",
+       "                        0.00138613,  0.05051938],\n",
+       "                      [-0.01989467, -0.02315113, -0.01396444, ...,  0.01349834,\n",
+       "                       -0.03227997, -0.00757772]],\n",
+       "              \n",
+       "                     [[-0.03354385,  0.00472513, -0.00769798, ..., -0.00885564,\n",
+       "                        0.00580721,  0.00488673],\n",
+       "                      [ 0.00019211, -0.05568425,  0.03763834, ...,  0.01199987,\n",
+       "                        0.05336869,  0.00097181],\n",
+       "                      [ 0.01217039, -0.01985674, -0.02567776, ...,  0.01783625,\n",
+       "                        0.01716065, -0.0082099 ],\n",
+       "                      ...,\n",
+       "                      [-0.00518826,  0.01263819,  0.0485655 , ..., -0.00851737,\n",
+       "                       -0.00549572,  0.00633934],\n",
+       "                      [-0.00375161, -0.00891478, -0.04307966, ...,  0.01984667,\n",
+       "                       -0.02368173,  0.03147876],\n",
+       "                      [-0.06817975,  0.01210132, -0.0452972 , ...,  0.0040069 ,\n",
+       "                       -0.03429648, -0.00730973]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.02184511,  0.00679431, -0.03424827, ..., -0.0324767 ,\n",
+       "                       -0.03337568, -0.02098824],\n",
+       "                      [ 0.00526736,  0.01765759, -0.00150187, ...,  0.01563913,\n",
+       "                       -0.03712524, -0.04228941],\n",
+       "                      [ 0.00287891,  0.01557054,  0.03291737, ...,  0.0284601 ,\n",
+       "                       -0.03523739, -0.04916026],\n",
+       "                      ...,\n",
+       "                      [ 0.0726782 ,  0.01572193,  0.01749741, ..., -0.0704402 ,\n",
+       "                        0.02775858,  0.01285747],\n",
+       "                      [-0.05291403,  0.0512777 , -0.0159433 , ..., -0.02398926,\n",
+       "                       -0.02968781,  0.03079283],\n",
+       "                      [ 0.02697434, -0.05755222, -0.00289774, ...,  0.04506145,\n",
+       "                        0.004663  ,  0.02585066]],\n",
+       "              \n",
+       "                     [[-0.00757567, -0.01126878, -0.02642928, ..., -0.03176008,\n",
+       "                       -0.01499557,  0.04133096],\n",
+       "                      [-0.01980947,  0.01605221, -0.00517764, ...,  0.05347731,\n",
+       "                       -0.05864521, -0.02187834],\n",
+       "                      [-0.02866621,  0.06634904,  0.02014033, ...,  0.06080866,\n",
+       "                       -0.03863212,  0.00922127],\n",
+       "                      ...,\n",
+       "                      [ 0.00711835,  0.03246192, -0.02572215, ...,  0.01283702,\n",
+       "                        0.03169347, -0.01601929],\n",
+       "                      [-0.00215667,  0.0053453 , -0.01257901, ..., -0.02509351,\n",
+       "                       -0.00632794, -0.03124427],\n",
+       "                      [ 0.01211728,  0.00876393, -0.02041848, ..., -0.02124933,\n",
+       "                        0.01459261, -0.00189419]],\n",
+       "              \n",
+       "                     [[ 0.0405766 , -0.02296813, -0.02817863, ...,  0.01705168,\n",
+       "                       -0.01035196, -0.0244919 ],\n",
+       "                      [-0.02430458, -0.03143776,  0.00675427, ...,  0.02892111,\n",
+       "                       -0.03539396,  0.0230977 ],\n",
+       "                      [-0.04200551, -0.06123465, -0.05325764, ...,  0.05219106,\n",
+       "                       -0.03404982, -0.02000758],\n",
+       "                      ...,\n",
+       "                      [-0.00871374,  0.03963133, -0.01728675, ..., -0.08522114,\n",
+       "                        0.02565349, -0.04237581],\n",
+       "                      [-0.04688184,  0.00770911, -0.03921608, ..., -0.01087793,\n",
+       "                       -0.01175969,  0.04221232],\n",
+       "                      [-0.049819  , -0.0142605 ,  0.02277326, ...,  0.011447  ,\n",
+       "                        0.01668214,  0.02802994]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._0/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.40716648,  0.40576845,  0.39812824, ..., -0.40593734,\n",
+       "                        0.4078691 ,  0.40172875],\n",
+       "                      [ 0.38636172, -0.39008147,  0.3933755 , ...,  0.3955923 ,\n",
+       "                       -0.39074385,  0.3821965 ],\n",
+       "                      [ 0.39197102, -0.37414056,  0.38462132, ..., -0.3784486 ,\n",
+       "                        0.37449127,  0.3882801 ],\n",
+       "                      ...,\n",
+       "                      [-0.37871185, -0.38042605,  0.37447634, ...,  0.39369246,\n",
+       "                        0.36104998,  0.39049906],\n",
+       "                      [ 0.354122  ,  0.34075758,  0.34114447, ...,  0.33195916,\n",
+       "                        0.33932644,  0.33547738],\n",
+       "                      [-0.31507498,  0.33297104, -0.31998354, ..., -0.31302354,\n",
+       "                       -0.3355336 ,  0.3482901 ]],\n",
+       "              \n",
+       "                     [[ 0.3199213 ,  0.31403384,  0.32980934, ..., -0.34518468,\n",
+       "                        0.34063518,  0.33515075],\n",
+       "                      [ 0.31984913, -0.32108593,  0.32787293, ...,  0.33512378,\n",
+       "                       -0.3233186 ,  0.32992056],\n",
+       "                      [ 0.34243986, -0.3262791 ,  0.3039921 , ..., -0.3159503 ,\n",
+       "                        0.2925109 ,  0.3018358 ],\n",
+       "                      ...,\n",
+       "                      [-0.30164126, -0.3064998 ,  0.31280872, ...,  0.3158512 ,\n",
+       "                        0.31490564,  0.28778085],\n",
+       "                      [ 0.3283429 ,  0.3271414 ,  0.34931543, ...,  0.3033215 ,\n",
+       "                        0.33356848,  0.30767712],\n",
+       "                      [-0.2645189 ,  0.27556178, -0.26288036, ..., -0.24751008,\n",
+       "                       -0.2629664 ,  0.26435322]],\n",
+       "              \n",
+       "                     [[ 0.291087  ,  0.28982708,  0.28505024, ..., -0.2799747 ,\n",
+       "                        0.30001864,  0.2730273 ],\n",
+       "                      [ 0.26279756, -0.30112368,  0.29176798, ...,  0.2769896 ,\n",
+       "                       -0.29098928,  0.26730642],\n",
+       "                      [ 0.29452854, -0.29852226,  0.28637505, ..., -0.2947532 ,\n",
+       "                        0.2799103 ,  0.28863603],\n",
+       "                      ...,\n",
+       "                      [-0.2758026 , -0.26701498,  0.28453207, ...,  0.2795585 ,\n",
+       "                        0.27189273,  0.2507327 ],\n",
+       "                      [ 0.26728618,  0.26869908,  0.28794307, ...,  0.25227395,\n",
+       "                        0.2626167 ,  0.24173735],\n",
+       "                      [-0.23962979,  0.23545188, -0.2417576 , ..., -0.23906739,\n",
+       "                       -0.2343389 ,  0.23448807]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.00966584,  0.00096837, -0.02064038, ...,  0.01187884,\n",
+       "                       -0.01537259, -0.01701293],\n",
+       "                      [ 0.03537149, -0.02922641,  0.03284383, ...,  0.03100542,\n",
+       "                       -0.03081715,  0.00767527],\n",
+       "                      [-0.01367592,  0.0145938 , -0.01784269, ...,  0.02510932,\n",
+       "                       -0.02217818, -0.02652539],\n",
+       "                      ...,\n",
+       "                      [ 0.0027559 ,  0.01740869, -0.02969341, ..., -0.02402263,\n",
+       "                       -0.01643083, -0.00846119],\n",
+       "                      [-0.01906268, -0.00594951,  0.00351497, ..., -0.0045603 ,\n",
+       "                       -0.0026327 ,  0.00152499],\n",
+       "                      [-0.03041004,  0.02467696, -0.03267419, ..., -0.03226134,\n",
+       "                       -0.05339084,  0.04969552]],\n",
+       "              \n",
+       "                     [[ 0.00085549,  0.01244663,  0.01348209, ..., -0.00475915,\n",
+       "                        0.01295181,  0.01015476],\n",
+       "                      [ 0.01858704, -0.01860221,  0.00510187, ...,  0.02715912,\n",
+       "                       -0.01002228,  0.00621207],\n",
+       "                      [ 0.01918229,  0.00679111, -0.01300194, ..., -0.00634295,\n",
+       "                        0.00527138,  0.01043263],\n",
+       "                      ...,\n",
+       "                      [ 0.01595129,  0.00533315,  0.00275164, ..., -0.00058782,\n",
+       "                        0.01323795,  0.01409637],\n",
+       "                      [ 0.01785758, -0.00554279, -0.00474615, ..., -0.00798881,\n",
+       "                        0.0170826 , -0.00645886],\n",
+       "                      [ 0.00754235, -0.00442841,  0.00134518, ...,  0.00847297,\n",
+       "                        0.00621545,  0.00697028]],\n",
+       "              \n",
+       "                     [[ 0.01857087, -0.00343152, -0.00287611, ..., -0.00269689,\n",
+       "                        0.01138329,  0.01040243],\n",
+       "                      [-0.00155393, -0.01449388,  0.01091028, ...,  0.01365481,\n",
+       "                       -0.01510941,  0.00288129],\n",
+       "                      [ 0.00766992, -0.0148193 , -0.00887977, ..., -0.0128723 ,\n",
+       "                        0.01526615,  0.01719172],\n",
+       "                      ...,\n",
+       "                      [-0.03175353, -0.02803851,  0.02470523, ...,  0.02021142,\n",
+       "                        0.04161043,  0.02514303],\n",
+       "                      [ 0.00685295,  0.01218422,  0.02265075, ...,  0.01639694,\n",
+       "                        0.01010866,  0.02989644],\n",
+       "                      [-0.00554112, -0.00560751,  0.02870623, ...,  0.01522168,\n",
+       "                        0.00846885, -0.00057995]]], dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.41091743, -0.39703333, -0.3787934 ,  0.39795482,  0.40357172,\n",
+       "                      -0.40281782, -0.41370422, -0.4099608 ,  0.39989063,  0.4036594 ,\n",
+       "                      -0.3861448 , -0.40617776],\n",
+       "                     [-0.3994995 ,  0.39342538, -0.39707455, -0.38800818, -0.39609486,\n",
+       "                      -0.41212624, -0.3968884 , -0.3986293 ,  0.40980852, -0.40389988,\n",
+       "                       0.39750007, -0.39903447],\n",
+       "                     [-0.4281001 ,  0.42487082, -0.4144221 , -0.42607158,  0.4272242 ,\n",
+       "                       0.42541218, -0.42733738, -0.4232606 , -0.42850807,  0.41737798,\n",
+       "                      -0.42221972, -0.41712043],\n",
+       "                     [-0.07753266, -0.08413776, -0.10196105,  0.06933961, -0.09252501,\n",
+       "                       0.06681735,  0.07503854,  0.08201353, -0.07535568,  0.08145013,\n",
+       "                       0.0821331 ,  0.0635386 ],\n",
+       "                     [-0.37799704,  0.391212  ,  0.38612953,  0.38402295, -0.37795395,\n",
+       "                       0.39440656, -0.38802493,  0.39030483,  0.38115305, -0.40690652,\n",
+       "                       0.3750855 , -0.38593653],\n",
+       "                     [-0.09539425,  0.08643065,  0.072628  , -0.11199744, -0.12268147,\n",
+       "                      -0.11589758, -0.10698763, -0.10850427, -0.11080333, -0.00211119,\n",
+       "                       0.1037788 , -0.07428905],\n",
+       "                     [ 0.1193511 , -0.11804518,  0.11180906, -0.13487288, -0.23671259,\n",
+       "                      -0.16047317,  0.14368586,  0.05518241, -0.20675474, -0.04652565,\n",
+       "                       0.08266887,  0.10164189],\n",
+       "                     [-0.38380483,  0.38831097, -0.38232616,  0.38219568,  0.383948  ,\n",
+       "                       0.39362624,  0.3941855 , -0.39409056, -0.4030941 , -0.39971116,\n",
+       "                      -0.3981465 , -0.39881432],\n",
+       "                     [-0.3099356 , -0.31265897,  0.3193186 , -0.31829622,  0.32524088,\n",
+       "                      -0.31574857, -0.3168675 ,  0.30564085,  0.3218244 , -0.32326233,\n",
+       "                      -0.32111323,  0.3102204 ],\n",
+       "                     [-0.4212419 , -0.42001873, -0.41639826,  0.4133891 ,  0.42399213,\n",
+       "                      -0.40664238,  0.39729682, -0.41771716, -0.39906105,  0.40661538,\n",
+       "                      -0.41407037, -0.42145047],\n",
+       "                     [ 0.1267855 , -0.13117962,  0.17548735, -0.08526026, -0.13567473,\n",
+       "                       0.17726924, -0.05819062, -0.18689696, -0.17538345, -0.13423504,\n",
+       "                      -0.10781161, -0.10340425],\n",
+       "                     [-0.36864135, -0.35940742, -0.35618803, -0.35787508,  0.3575697 ,\n",
+       "                      -0.3574569 , -0.3538487 ,  0.3440898 ,  0.3565024 , -0.3692214 ,\n",
+       "                      -0.36304694,  0.37657958],\n",
+       "                     [ 0.3814958 , -0.38268888, -0.3919121 ,  0.3862683 , -0.3842662 ,\n",
+       "                       0.37994033, -0.37854648,  0.37619665,  0.38032112,  0.37548965,\n",
+       "                       0.3858773 , -0.38589865],\n",
+       "                     [ 0.36513856,  0.37049237, -0.38507372,  0.38773128,  0.3896943 ,\n",
+       "                       0.38529888, -0.38293883,  0.38670814, -0.37630308, -0.3852462 ,\n",
+       "                      -0.38168323, -0.36389014],\n",
+       "                     [-0.35706925, -0.3685492 , -0.36063698, -0.37230328,  0.3733398 ,\n",
+       "                      -0.36614853, -0.35917693,  0.37010276,  0.3742366 , -0.3623095 ,\n",
+       "                      -0.35129878, -0.36304602],\n",
+       "                     [ 0.26836962, -0.2784579 ,  0.27416602,  0.25678456,  0.27024218,\n",
+       "                      -0.25554377, -0.26284674,  0.25679955,  0.26513654,  0.256254  ,\n",
+       "                       0.27064562, -0.26481283]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._0/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.07500667, -0.08196688, -0.09829494,  0.08887871,  0.08919983,\n",
+       "                      -0.07611736, -0.09272641, -0.08778842,  0.0928647 ,  0.10149004,\n",
+       "                      -0.08891256, -0.07898947],\n",
+       "                     [-0.06834277,  0.07726638, -0.1019414 , -0.07936464, -0.07272576,\n",
+       "                      -0.09620529, -0.08719102, -0.09573347,  0.09898835, -0.07499579,\n",
+       "                       0.08524351, -0.10087925],\n",
+       "                     [ 0.00965925,  0.02427299, -0.00345065,  0.00730649, -0.02419891,\n",
+       "                       0.0209785 ,  0.00397648, -0.00956057, -0.01082321, -0.00767106,\n",
+       "                      -0.03438235, -0.00838221],\n",
+       "                     [-0.08530877, -0.04656003, -0.02000831,  0.09045035, -0.06728352,\n",
+       "                       0.08749081,  0.04640979,  0.07363399, -0.05163037,  0.08810713,\n",
+       "                       0.08202825,  0.10457424],\n",
+       "                     [-0.13564268,  0.14556517,  0.13971709,  0.13047284, -0.14067452,\n",
+       "                       0.1199011 , -0.11722513,  0.14309591,  0.1414378 , -0.13006493,\n",
+       "                       0.13093708, -0.13142247],\n",
+       "                     [-0.12929264,  0.14353621,  0.12598464, -0.08372255, -0.12269616,\n",
+       "                       0.12652738, -0.11513762, -0.11615187, -0.11035014, -0.1242417 ,\n",
+       "                      -0.10535961, -0.1262374 ],\n",
+       "                     [ 0.19117779, -0.13589805,  0.1352441 , -0.20463352,  0.08610608,\n",
+       "                      -0.1680213 ,  0.03736984,  0.15758243, -0.19908512, -0.1283229 ,\n",
+       "                       0.19029246,  0.19510667],\n",
+       "                     [-0.17444994,  0.18031645, -0.17730455,  0.19382964,  0.18292345,\n",
+       "                       0.18134804,  0.16650024, -0.16646932, -0.19650623, -0.16654335,\n",
+       "                      -0.20469052, -0.1899635 ],\n",
+       "                     [-0.08151194, -0.07332364,  0.05824054, -0.04681879,  0.08355903,\n",
+       "                      -0.06515411, -0.07147256,  0.05490229,  0.06638666, -0.05144802,\n",
+       "                      -0.05463661,  0.06513254],\n",
+       "                     [-0.07129031, -0.08209192, -0.07281575,  0.09461285,  0.08633045,\n",
+       "                      -0.07700296,  0.08106499, -0.06870469, -0.07736162,  0.07991602,\n",
+       "                      -0.08244774, -0.0813574 ],\n",
+       "                     [ 0.09168738, -0.14998332,  0.13085112, -0.1581326 , -0.16370456,\n",
+       "                       0.18202457, -0.15734208, -0.11138753, -0.14053495, -0.06981163,\n",
+       "                      -0.10164346, -0.17347746],\n",
+       "                     [-0.14228927, -0.15764919, -0.15668295, -0.17511848,  0.15683635,\n",
+       "                      -0.13297205, -0.13305731,  0.13137904,  0.14111319, -0.1575835 ,\n",
+       "                      -0.14276572,  0.13538426],\n",
+       "                     [ 0.02495499, -0.00631264, -0.00728494, -0.00878906,  0.01900311,\n",
+       "                       0.01417752, -0.01053768,  0.00572799,  0.01857267,  0.01430714,\n",
+       "                       0.01573708, -0.01450025],\n",
+       "                     [ 0.05821129,  0.04888328, -0.04329408,  0.04478474,  0.05833419,\n",
+       "                       0.04056882, -0.03235751,  0.04915995, -0.11113477, -0.04580541,\n",
+       "                      -0.03836249, -0.05638641],\n",
+       "                     [-0.1507673 , -0.15314901, -0.16472816, -0.14931056,  0.14615384,\n",
+       "                      -0.15893032, -0.17392617,  0.1446304 ,  0.15037927, -0.16776474,\n",
+       "                      -0.1605527 , -0.1688422 ],\n",
+       "                     [ 0.11285035, -0.11458515,  0.12181724,  0.11344904,  0.12769765,\n",
+       "                      -0.10807306, -0.10855875,  0.11906493,  0.10473388,  0.12991548,\n",
+       "                       0.11295414, -0.11610106]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._0/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 5.12855593e-03,  6.66835904e-03, -2.13512196e-03,\n",
+       "                        2.88987858e-03, -1.71656208e-03,  1.58670377e-02,\n",
+       "                       -8.73166951e-04,  4.74393461e-03, -6.72416575e-03,\n",
+       "                       -1.24936868e-02,  4.09317249e-03,  1.94797525e-03],\n",
+       "                      [-5.01133036e-03,  3.40523687e-03, -2.42055190e-04,\n",
+       "                       -1.12740491e-02, -5.46351587e-03,  9.71018616e-03,\n",
+       "                       -7.15655321e-03, -4.95742424e-05, -4.58561257e-03,\n",
+       "                        1.56312622e-03,  5.08005917e-03, -6.85218209e-03],\n",
+       "                      [ 1.85134544e-04,  7.57252425e-03, -2.41664107e-04,\n",
+       "                       -4.85895574e-03, -1.31634222e-02, -2.05327684e-04,\n",
+       "                        1.36911019e-03,  4.77854890e-04,  3.17802397e-03,\n",
+       "                        1.11254193e-02,  3.38124810e-03,  1.97687116e-03],\n",
+       "                      [-7.58354180e-03, -1.09749660e-03,  1.87258364e-03,\n",
+       "                       -4.39679855e-03,  1.35056898e-02,  9.37500736e-04,\n",
+       "                       -6.28093816e-03,  2.51053181e-03, -3.76467688e-05,\n",
+       "                       -9.07093473e-03, -6.08211616e-03, -6.79496210e-03],\n",
+       "                      [ 2.59081926e-03, -5.83294872e-03, -1.54970074e-02,\n",
+       "                       -6.76365569e-04, -1.25865443e-02, -5.09684067e-03,\n",
+       "                        7.90737278e-04, -4.44856618e-04,  4.82388365e-04,\n",
+       "                        1.59114788e-04,  3.07379081e-03, -8.17673746e-03],\n",
+       "                      [-4.96430276e-03, -5.67409629e-03, -6.89030997e-03,\n",
+       "                        1.39006656e-02,  2.89973710e-03,  6.23332476e-03,\n",
+       "                        1.70481708e-02, -4.40335087e-03,  3.05335340e-03,\n",
+       "                        5.17270155e-03, -7.58902961e-03, -8.06333311e-03],\n",
+       "                      [ 7.67198333e-04,  8.52348865e-04,  1.19951833e-02,\n",
+       "                        1.18750166e-02, -1.38447862e-02,  2.53724447e-03,\n",
+       "                       -4.56267176e-03, -1.47879776e-02,  3.49962851e-03,\n",
+       "                        8.95409938e-03, -1.22253262e-02,  5.87659096e-03],\n",
+       "                      [-6.02274993e-03,  1.07724117e-02, -1.92951858e-02,\n",
+       "                       -8.73806793e-03,  4.29179054e-03,  1.78715102e-02,\n",
+       "                        2.29572807e-03, -9.07022879e-03,  3.62627744e-03,\n",
+       "                       -1.49977184e-03,  8.06051947e-04,  7.52089405e-03],\n",
+       "                      [-8.56387801e-03, -5.52490819e-03, -6.07694313e-03,\n",
+       "                        7.73270428e-03,  3.36591294e-03,  1.33520318e-02,\n",
+       "                        5.79763716e-03, -6.06268551e-03, -1.30867837e-02,\n",
+       "                       -5.73166646e-03, -8.60142335e-03, -3.28946603e-03],\n",
+       "                      [ 7.07297726e-03,  1.46094672e-02, -3.17050470e-03,\n",
+       "                        4.19184798e-03, -1.07984338e-02,  1.11594601e-02,\n",
+       "                        7.47498544e-03,  6.07205974e-03,  5.49842697e-03,\n",
+       "                       -1.09560159e-03,  6.33720867e-03, -4.09576995e-03],\n",
+       "                      [ 5.19787800e-03, -8.40189401e-03, -6.77535636e-03,\n",
+       "                        6.13030186e-03, -1.95480511e-03, -5.28680300e-03,\n",
+       "                        1.52438283e-02,  6.90290378e-03,  4.62633790e-03,\n",
+       "                        4.37200768e-03, -2.73249880e-03, -4.53076279e-03],\n",
+       "                      [ 1.18563753e-02, -7.14349840e-03, -9.96101461e-03,\n",
+       "                       -9.97988041e-03, -1.24550415e-02,  8.09469167e-03,\n",
+       "                       -1.02353562e-02, -1.37576126e-02,  1.24030905e-02,\n",
+       "                        7.50589464e-03, -1.03093951e-03, -1.76431537e-02],\n",
+       "                      [-1.73272891e-03,  1.84512779e-03,  7.85177015e-03,\n",
+       "                        1.12089356e-02,  1.77292023e-02, -6.15275884e-03,\n",
+       "                       -4.45538433e-03, -8.67045391e-03, -1.32132098e-02,\n",
+       "                       -6.60764799e-03, -1.10811731e-02,  1.04815792e-02],\n",
+       "                      [ 1.46891258e-03,  3.11328622e-04, -5.73975593e-03,\n",
+       "                        1.69053266e-03,  1.96011234e-02,  9.96744260e-03,\n",
+       "                        1.91467740e-02, -1.96210332e-02,  3.37434234e-03,\n",
+       "                        1.21225948e-02, -1.80448294e-02,  1.41356736e-02],\n",
+       "                      [ 6.40557474e-03, -2.84241606e-03, -7.86876678e-03,\n",
+       "                        1.00508938e-02, -8.79120640e-03,  1.06285773e-02,\n",
+       "                       -1.45075447e-03,  1.80888642e-02, -3.24608118e-04,\n",
+       "                       -3.15192482e-03, -1.70563918e-03,  1.65305212e-02],\n",
+       "                      [ 1.10242600e-02, -3.45982355e-03,  1.32184075e-02,\n",
+       "                        8.34964495e-03, -7.07727717e-03, -1.78799573e-02,\n",
+       "                        6.51658466e-03, -1.71895437e-02,  3.61713610e-04,\n",
+       "                        1.52124725e-02, -1.45496083e-02,  1.51191978e-02]],\n",
+       "              \n",
+       "                     [[-1.11321360e-02, -1.63758211e-02, -2.79240031e-03,\n",
+       "                        1.23046013e-03,  3.06214509e-03, -1.97326150e-02,\n",
+       "                        4.76867566e-03,  2.46074027e-03, -1.80071164e-02,\n",
+       "                       -1.91356055e-02,  6.95738010e-03,  5.85925626e-03],\n",
+       "                      [ 6.20611990e-03, -3.06281913e-03,  1.18250530e-02,\n",
+       "                        9.03544668e-03,  1.59206858e-03, -4.93871700e-03,\n",
+       "                        1.57426335e-02, -1.17017841e-02, -1.05403112e-02,\n",
+       "                        1.77778918e-02, -5.04181953e-03,  1.92524102e-02],\n",
+       "                      [ 1.81273408e-02, -9.59337596e-03, -1.43720107e-02,\n",
+       "                        7.42731337e-03, -3.49794142e-03, -9.08243284e-03,\n",
+       "                       -1.26554919e-02, -3.92393861e-03,  1.62129849e-02,\n",
+       "                        7.93737359e-03, -1.39523549e-02, -1.71343330e-02],\n",
+       "                      [ 3.50867095e-03,  6.12853142e-03,  8.60079890e-04,\n",
+       "                        1.76838064e-03, -4.32498148e-03,  2.44022580e-03,\n",
+       "                       -4.61555785e-03,  9.83264670e-03, -6.55062916e-03,\n",
+       "                        5.09076891e-03, -1.98914651e-02, -5.13289962e-03],\n",
+       "                      [ 6.31234143e-03,  8.19841691e-04, -6.28800038e-03,\n",
+       "                        1.69438659e-03,  1.20353850e-03, -9.52797756e-03,\n",
+       "                       -1.89838856e-02,  1.42058097e-02, -4.50487685e-04,\n",
+       "                       -9.68337990e-04,  1.36484858e-02,  9.62200761e-03],\n",
+       "                      [ 8.21296405e-03,  8.77249148e-03,  2.57751485e-03,\n",
+       "                       -8.44736118e-03, -5.86496620e-03,  1.31070465e-02,\n",
+       "                        7.14863278e-03,  1.93205802e-03, -2.81021884e-03,\n",
+       "                        4.10962198e-03, -5.84370550e-03, -6.91601690e-06],\n",
+       "                      [ 1.39592336e-02, -5.59413061e-03, -5.74240135e-03,\n",
+       "                       -1.05634805e-04, -2.84640607e-03, -2.32673506e-03,\n",
+       "                        9.66272608e-04, -1.92520185e-03, -3.76285845e-03,\n",
+       "                       -3.61609296e-03,  4.17765416e-03,  1.25582563e-03],\n",
+       "                      [ 6.42140489e-03,  1.66140951e-03,  5.25343278e-03,\n",
+       "                        1.70482527e-02, -1.96832535e-03,  1.53658502e-02,\n",
+       "                       -2.14385771e-04, -7.87696522e-03,  6.28546812e-03,\n",
+       "                        1.02956034e-02,  7.89953396e-04, -7.44149368e-03],\n",
+       "                      [ 8.59444775e-03,  1.04654897e-02, -1.51982820e-02,\n",
+       "                       -4.85809706e-03, -1.21037243e-02, -8.17074534e-03,\n",
+       "                       -4.50816192e-03,  1.44476595e-03, -3.60425352e-03,\n",
+       "                       -4.66537400e-04,  3.09814094e-03, -6.37923460e-03],\n",
+       "                      [ 3.38344625e-03,  2.68637226e-03, -5.64868236e-03,\n",
+       "                        1.26324641e-03, -7.97617622e-03,  5.28610544e-04,\n",
+       "                       -4.31548152e-03, -6.69596763e-03, -1.75163466e-02,\n",
+       "                       -5.28662791e-03,  9.55967978e-03,  9.75693483e-03],\n",
+       "                      [ 1.30861154e-04,  6.43794285e-03,  1.71945419e-03,\n",
+       "                        1.61401704e-02, -1.84416526e-03, -1.29076012e-04,\n",
+       "                       -1.17621776e-02, -1.04355123e-02, -3.95264244e-03,\n",
+       "                       -7.07765389e-03,  4.39857272e-03, -8.02241918e-03],\n",
+       "                      [ 5.07055409e-03,  1.14876851e-02, -3.46192089e-03,\n",
+       "                        8.74145981e-03,  1.24274231e-02,  1.40672289e-02,\n",
+       "                       -1.83607882e-03,  1.69887617e-02,  1.91973560e-02,\n",
+       "                        1.04817152e-02, -2.31551332e-03,  2.96735088e-04],\n",
+       "                      [ 4.91836760e-03, -3.66516784e-03,  1.08165350e-02,\n",
+       "                        4.64872131e-03,  7.96078052e-03, -7.13564875e-03,\n",
+       "                        3.62745929e-03, -3.65488022e-03,  7.63897225e-03,\n",
+       "                       -1.11391963e-02, -1.00904759e-02,  1.55993924e-02],\n",
+       "                      [ 6.69008680e-03,  4.25420469e-03,  5.41883986e-03,\n",
+       "                       -1.11117018e-02, -5.68970514e-04, -3.17663234e-03,\n",
+       "                        5.20493975e-03, -8.93818680e-03, -3.28786694e-03,\n",
+       "                        7.41777522e-03,  7.49085750e-03, -1.82077661e-02],\n",
+       "                      [ 4.80132032e-04,  9.23585985e-03,  1.92046426e-02,\n",
+       "                        6.56831032e-03,  1.44117558e-02, -7.02518446e-04,\n",
+       "                       -5.83477318e-03, -6.96717296e-03, -5.12858434e-03,\n",
+       "                       -1.04593607e-02,  1.00317681e-02,  1.24781048e-02],\n",
+       "                      [-7.89445825e-03,  9.21254233e-03, -1.85428406e-04,\n",
+       "                       -3.90535640e-03, -4.18059342e-03,  8.93989578e-03,\n",
+       "                        3.41365172e-04,  1.69165637e-02,  4.05886769e-03,\n",
+       "                        9.71019268e-03, -1.22467382e-02,  1.77962682e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._0/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0064669 , 1.0818937 , 1.0529696 , 1.027011  , 1.072284  ,\n",
+       "                       1.0306487 , 0.9886776 , 0.98933357, 1.0080134 , 1.0092249 ,\n",
+       "                       1.0112736 , 1.0502064 , 0.99890935, 1.0473876 , 1.0330958 ,\n",
+       "                       1.0027466 , 1.0600146 , 1.012573  , 1.0349828 , 1.0181065 ,\n",
+       "                       1.062332  , 1.04784   , 0.9965813 , 0.9922533 , 1.0002353 ,\n",
+       "                       1.0056747 , 1.0608792 , 1.0256199 , 1.0487269 , 1.0022048 ,\n",
+       "                       1.0130595 , 1.009154  , 1.035093  , 1.0225183 , 1.0258716 ,\n",
+       "                       1.0255703 , 1.0336466 , 1.0641304 , 0.98713547, 1.005409  ,\n",
+       "                       1.037388  , 1.0334266 , 1.0115819 , 1.0451132 , 1.0127302 ,\n",
+       "                       1.026768  , 1.0033892 , 1.0719266 , 1.0142633 , 1.0064338 ,\n",
+       "                       1.0061831 , 1.082493  , 1.0613683 , 1.0165426 , 1.0044955 ,\n",
+       "                       1.0308001 , 1.0337422 , 1.0392753 , 1.0404853 , 1.061793  ,\n",
+       "                       1.0579301 , 1.0033402 , 0.9876382 , 0.9945765 , 1.0268649 ,\n",
+       "                       1.0322272 , 1.0105722 , 1.0436976 , 1.0327612 , 1.0217149 ,\n",
+       "                       1.0504173 , 0.9959419 , 1.0166682 , 1.0405486 , 1.0284251 ,\n",
+       "                       1.027506  , 1.0002648 , 1.0585668 , 1.0035429 , 1.0180401 ,\n",
+       "                       1.0099533 , 0.9838198 , 0.9946292 , 1.0244538 , 1.0183443 ,\n",
+       "                       1.0445744 , 1.0509833 , 1.0250286 , 1.0218376 , 0.985047  ,\n",
+       "                       1.0255886 , 1.0078777 , 1.0183403 , 1.0793016 , 1.0312704 ,\n",
+       "                       1.0454726 , 1.0745726 , 1.0386236 , 1.0486016 , 1.0218583 ,\n",
+       "                       1.0054005 , 1.0270458 , 1.0345457 , 1.0044142 , 1.0240374 ,\n",
+       "                       0.98509014, 1.0253175 , 1.0475533 , 1.0341904 , 1.0426164 ,\n",
+       "                       1.0431237 , 0.9964105 , 1.0359719 , 1.0343416 , 1.0255029 ,\n",
+       "                       0.9868464 , 1.0226315 , 1.0204879 , 1.0612466 , 1.0311997 ,\n",
+       "                       1.0315272 , 1.0149676 , 1.0266362 , 1.0051287 , 1.0160166 ,\n",
+       "                       1.0269036 , 0.9695572 , 1.0356328 , 1.0182139 , 0.99365634,\n",
+       "                       1.0248895 , 1.0467223 , 0.99832666, 1.0194186 , 1.0264868 ,\n",
+       "                       1.0457662 , 1.0010631 , 1.0781038 , 1.0366775 , 1.0192181 ,\n",
+       "                       1.0481138 , 1.0250039 , 1.0678422 , 1.0076646 , 1.0355699 ,\n",
+       "                       1.0159997 , 1.0457331 , 1.0366719 , 1.0515347 , 1.0401881 ,\n",
+       "                       1.0367059 , 1.0313339 , 1.004569  , 1.0335464 , 1.0153991 ,\n",
+       "                       0.99057716, 1.078844  , 0.99647516, 1.0546614 , 1.0700475 ,\n",
+       "                       1.0025264 , 1.0526556 , 1.0763507 , 0.9729892 , 0.992836  ,\n",
+       "                       1.0594417 , 1.0317165 , 1.0104476 , 1.0359826 , 1.0358601 ,\n",
+       "                       1.0337919 , 1.0279506 , 1.0117517 , 1.0357476 , 0.9967585 ,\n",
+       "                       1.0524963 , 1.0516102 , 1.035869  , 1.0262779 , 1.0246822 ,\n",
+       "                       0.99776876, 1.0228305 , 1.0323956 , 1.0822434 , 1.0439165 ,\n",
+       "                       1.004725  , 1.0423628 , 1.0363435 , 1.0164104 , 1.0294592 ,\n",
+       "                       1.0298296 , 1.0023874 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._0/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.03572559,  0.07052334,  0.04214054, -0.03088334, -0.05456677,\n",
+       "                        0.05488119, -0.00783285,  0.03388336, -0.04526844, -0.04859911,\n",
+       "                       -0.10143859,  0.02883948,  0.03983791, -0.06707199, -0.02181157,\n",
+       "                       -0.02965509, -0.07566714, -0.04532457, -0.06066715,  0.01502714,\n",
+       "                       -0.04262436,  0.03714302, -0.02645871,  0.06151082, -0.02454024,\n",
+       "                        0.02703209,  0.10376223, -0.04253267, -0.01060255,  0.03355165,\n",
+       "                       -0.02753572, -0.03638862,  0.04837547,  0.00728404,  0.02081808,\n",
+       "                        0.07089293,  0.0332068 , -0.04893075, -0.02254294, -0.05787472,\n",
+       "                        0.06663159,  0.01440133,  0.01816812,  0.04664446,  0.04485836,\n",
+       "                       -0.02159609, -0.05356405,  0.05446031, -0.04811412,  0.02603062,\n",
+       "                       -0.02455731,  0.10918348, -0.07446387,  0.02285322,  0.04729371,\n",
+       "                       -0.06004195, -0.06706948,  0.01052909,  0.05317412,  0.06986604,\n",
+       "                       -0.01449101,  0.02433792,  0.04743486, -0.03121328,  0.05618388,\n",
+       "                        0.04716328, -0.02363005, -0.01016761, -0.08208757,  0.05031472,\n",
+       "                        0.01894861,  0.02174053,  0.03442447,  0.05563618,  0.04318314,\n",
+       "                        0.02114048,  0.00857429,  0.07583337,  0.04995118, -0.01893166,\n",
+       "                       -0.05295784, -0.02783245,  0.0001985 ,  0.00630969, -0.04276912,\n",
+       "                        0.05514951, -0.07692855,  0.00204788,  0.02236083, -0.00397996,\n",
+       "                       -0.06290936,  0.0649584 , -0.01276455, -0.00273596,  0.07110768,\n",
+       "                       -0.02371853, -0.02431823, -0.07048386,  0.06340913, -0.05307363,\n",
+       "                        0.05174835,  0.05569284, -0.0364473 ,  0.03883031,  0.04631821,\n",
+       "                       -0.00825793, -0.03373799,  0.02248353, -0.05415484,  0.02037876,\n",
+       "                        0.07150011,  0.0309096 ,  0.01336379, -0.01085599,  0.02313981,\n",
+       "                       -0.02167892,  0.05665489, -0.02289949,  0.00883717, -0.02259299,\n",
+       "                        0.06036956, -0.01272535,  0.07566863, -0.01698468,  0.05676753,\n",
+       "                       -0.03596041,  0.0329265 ,  0.03933702,  0.06527503,  0.00900725,\n",
+       "                       -0.04639523, -0.04539404, -0.07513943,  0.03125531, -0.01435694,\n",
+       "                       -0.05000272, -0.03738052, -0.02647759, -0.014988  , -0.02063022,\n",
+       "                        0.05364346, -0.02731912,  0.08264866, -0.00714785, -0.03687573,\n",
+       "                       -0.00052383,  0.07184311, -0.03491021, -0.05168867, -0.05767809,\n",
+       "                        0.02498916, -0.01734494, -0.0632204 , -0.04646963,  0.00148338,\n",
+       "                       -0.04563425, -0.10136002,  0.01319181, -0.00625894, -0.00598573,\n",
+       "                        0.02463751,  0.06959893, -0.04617108,  0.00143085,  0.0269984 ,\n",
+       "                       -0.03616631,  0.00691976,  0.04255624,  0.05120771,  0.058086  ,\n",
+       "                        0.01832968,  0.03730016, -0.0344684 , -0.07080473, -0.0376507 ,\n",
+       "                        0.03034958,  0.01746695, -0.03656098, -0.0179161 , -0.04996467,\n",
+       "                        0.01110566, -0.0233655 ,  0.02121658,  0.05575675, -0.06921916,\n",
+       "                       -0.03693148, -0.05269073, -0.03594529, -0.09070019, -0.01931166,\n",
+       "                       -0.03299083,  0.06832818], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[ 0.00246047,  0.02135191,  0.00422186, ...,  0.03055698,\n",
+       "                        -0.00743342,  0.0240952 ],\n",
+       "                       [ 0.03629406, -0.02811501,  0.03010121, ...,  0.03152696,\n",
+       "                         0.01973201, -0.01870199],\n",
+       "                       [ 0.00980821, -0.02279299,  0.0098472 , ...,  0.00054256,\n",
+       "                         0.02296435, -0.02869965],\n",
+       "                       ...,\n",
+       "                       [ 0.02188366, -0.01548733,  0.00447983, ..., -0.00616977,\n",
+       "                         0.05187739,  0.0073489 ],\n",
+       "                       [-0.04720765,  0.01410661,  0.00694184, ...,  0.02556819,\n",
+       "                         0.00123452,  0.01772419],\n",
+       "                       [ 0.01116645,  0.03368069, -0.03413522, ..., -0.00785405,\n",
+       "                        -0.01171144, -0.00460553]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-2.19278969e-03,  6.04699366e-03, -1.53210023e-02, -5.74001996e-03,\n",
+       "                       -5.07295039e-03, -1.25789945e-03,  2.87603051e-03,  9.42181982e-03,\n",
+       "                       -1.67974513e-02,  7.50782108e-03, -1.95889324e-02,  2.44341679e-02,\n",
+       "                        5.60135767e-03,  1.71202272e-02,  9.53060202e-03,  7.83520751e-03,\n",
+       "                        8.63440428e-03, -1.15798693e-02,  5.61433285e-03, -3.61166149e-03,\n",
+       "                       -1.18884696e-02, -1.54542122e-02,  9.97095928e-03,  1.59891341e-02,\n",
+       "                        8.20877962e-03,  5.21820970e-04, -3.66602722e-03, -7.11401692e-03,\n",
+       "                        1.00262100e-02,  3.59447952e-03, -1.16654150e-02, -2.60293309e-04,\n",
+       "                       -3.63240088e-03,  8.41740519e-04,  1.73763093e-02,  1.99245643e-02,\n",
+       "                       -2.23525967e-02,  2.30515469e-02,  1.83117948e-02, -3.47422843e-04,\n",
+       "                        2.32729558e-02, -6.71033049e-03, -4.18689474e-03,  2.22610123e-02,\n",
+       "                        4.92201792e-03,  2.51501203e-02, -2.27775332e-03,  1.47669693e-03,\n",
+       "                        1.04547301e-02,  1.01519590e-02, -1.07629057e-02,  1.65723497e-03,\n",
+       "                        4.11617849e-03,  1.82028804e-02,  1.11566214e-02,  2.30182409e-02,\n",
+       "                       -1.18287141e-02, -2.38776673e-02,  1.21969208e-02,  1.05630159e-02,\n",
+       "                        2.07968522e-02,  5.43673383e-03, -1.74141694e-02, -9.51491389e-03,\n",
+       "                        1.83382593e-02,  1.04319034e-02,  1.55340992e-02,  2.80532939e-03,\n",
+       "                        1.44922861e-03,  1.04811527e-02, -1.18558845e-02,  1.77682750e-03,\n",
+       "                        9.54237767e-03,  1.12899886e-02,  1.25479940e-02,  7.22044287e-03,\n",
+       "                       -1.88595464e-03,  2.17754673e-02,  2.96804262e-03,  1.73219159e-05,\n",
+       "                        1.53760463e-02, -2.00917642e-03,  5.90350828e-04,  7.75832799e-04,\n",
+       "                       -2.07943972e-02, -1.05067808e-02,  1.45246461e-02,  6.77682692e-03,\n",
+       "                        7.37776747e-03, -1.27472728e-02, -2.36441777e-03, -2.67949072e-03,\n",
+       "                        1.64910068e-03,  3.50152217e-02,  4.40310268e-03,  2.08763946e-02,\n",
+       "                        7.27950642e-03, -7.69594964e-03, -2.67414115e-02, -1.70541629e-02,\n",
+       "                       -3.29811405e-03, -7.61077460e-03,  6.73809648e-03,  4.98033408e-03,\n",
+       "                        1.20822787e-02, -1.04412539e-02,  1.53507674e-02,  1.40117342e-02,\n",
+       "                        2.13045012e-02, -1.23152873e-02,  1.39537482e-02,  2.06317306e-02,\n",
+       "                        2.59761652e-03, -1.59729889e-03, -4.10755444e-03,  7.65158795e-03,\n",
+       "                        1.71183832e-02, -7.31218280e-03,  9.15572792e-03, -1.86188314e-02,\n",
+       "                       -6.07075822e-03,  1.29571529e-02,  2.38646772e-02, -1.95070938e-03,\n",
+       "                        6.93639880e-03, -5.59475506e-03,  3.23603139e-03, -2.66886968e-03,\n",
+       "                        2.45580710e-02, -5.12463041e-03,  1.42249130e-02, -1.50085622e-02,\n",
+       "                       -6.45479606e-03,  1.91599261e-02, -1.44467328e-03,  1.05794268e-02,\n",
+       "                       -1.49858743e-02,  4.88797855e-03, -7.21035758e-03, -2.56358199e-02,\n",
+       "                        4.19023709e-04,  6.27954723e-03,  9.93503164e-03,  2.10088044e-02,\n",
+       "                        1.74473505e-02,  1.32214022e-03,  1.55853359e-02, -1.53631857e-02,\n",
+       "                        2.37401165e-02, -1.13086021e-02,  2.39201710e-02, -1.13888904e-02,\n",
+       "                        4.89860214e-03, -6.11251965e-03,  9.56667680e-03,  1.72541924e-02,\n",
+       "                       -1.42011708e-02,  1.03781205e-02, -8.26389762e-04,  7.26381736e-03,\n",
+       "                        1.84223317e-02, -1.47882728e-02,  6.29240228e-03,  7.76841957e-03,\n",
+       "                        3.11127747e-03, -3.21686640e-03, -8.16328917e-03, -6.70107035e-03,\n",
+       "                        2.28692014e-02, -9.22542904e-03,  7.99279381e-03, -1.35028204e-02,\n",
+       "                        7.43754441e-03,  2.49574892e-02,  1.76944025e-03,  1.11684399e-02,\n",
+       "                        1.89606808e-02, -1.34006366e-02, -5.20619750e-03, -5.28418412e-03,\n",
+       "                        9.56782699e-03,  4.95272782e-03,  1.10703101e-03, -2.59877386e-04,\n",
+       "                        1.15246791e-02,  1.81984790e-02,  1.20165003e-02,  1.49773303e-02,\n",
+       "                        6.65980019e-03, -5.50915161e-03,  2.13161446e-02,  1.30873369e-02,\n",
+       "                       -1.28262872e-02,  6.39692508e-03,  5.82733052e-03, -1.44022256e-02,\n",
+       "                        1.71116181e-02,  7.09277578e-03, -2.50236411e-02,  4.06866567e-03,\n",
+       "                        6.94010174e-03,  3.72852175e-03,  3.72777274e-03, -9.53891664e-04,\n",
+       "                        3.03575420e-03, -9.08128731e-03,  2.35900469e-03,  2.54409551e-03,\n",
+       "                        7.85557181e-03,  5.72764222e-03, -1.13477726e-02, -1.97790004e-03,\n",
+       "                       -2.02169698e-02,  1.66139123e-03,  4.42339433e-03,  1.04274824e-02,\n",
+       "                       -4.70428728e-03,  8.31646903e-04, -1.91115867e-03, -1.62475631e-02,\n",
+       "                        1.58297375e-03, -1.50254276e-02,  2.68275064e-04,  1.89033300e-02,\n",
+       "                       -1.06294956e-02,  9.86085087e-03,  9.37867071e-03,  6.53037149e-03,\n",
+       "                        2.60478165e-03, -2.57267803e-02,  2.15005018e-02, -3.40055348e-03,\n",
+       "                       -1.39013445e-02,  2.95173115e-04, -2.36411467e-02,  1.80282339e-04,\n",
+       "                        5.52599877e-03, -8.56333785e-03,  1.01212400e-03,  3.25073600e-02,\n",
+       "                        5.58349118e-03, -5.01703657e-03, -2.30139419e-02, -7.50387181e-03,\n",
+       "                        1.00269197e-02,  1.65834427e-02, -1.76343247e-02,  8.61031283e-03,\n",
+       "                       -2.24650232e-03,  1.96501296e-02,  1.35511039e-02, -1.72223039e-02,\n",
+       "                        3.42590734e-03,  1.64557416e-02, -9.82559938e-03, -5.14447736e-03,\n",
+       "                        2.44647590e-03,  5.59220975e-03,  2.79288404e-02, -3.72134103e-03,\n",
+       "                       -6.33670157e-03,  1.45124113e-02, -2.62766276e-02,  1.49100469e-02,\n",
+       "                        1.68065038e-02,  7.24705495e-03,  2.06217752e-03, -1.12682860e-02,\n",
+       "                        3.12566161e-02,  1.80585291e-02,  5.93927270e-03,  2.72701611e-03,\n",
+       "                        9.70310532e-03,  1.76505558e-02,  1.56975463e-02,  1.30839017e-03,\n",
+       "                       -1.36760985e-02, -5.82931610e-03,  2.37178952e-02,  6.36408245e-03,\n",
+       "                       -8.30591749e-03, -2.83155544e-03, -1.72732286e-02,  2.06037387e-02,\n",
+       "                       -2.75142677e-03,  8.32369551e-03, -1.00701684e-02, -1.60630234e-02,\n",
+       "                        2.36141868e-02, -3.94094363e-03,  2.52855098e-05, -2.81257443e-02,\n",
+       "                        1.24347163e-02,  1.94560941e-02,  2.68202014e-02,  2.89945491e-02,\n",
+       "                        1.17353071e-02, -1.23171899e-02, -1.30154043e-02, -3.62283492e-04,\n",
+       "                        7.18672853e-03,  1.50140692e-02, -3.94091476e-03,  2.59088795e-03,\n",
+       "                        7.08716968e-03, -4.78606299e-03,  1.54908653e-02, -5.57252322e-04,\n",
+       "                        9.48684104e-03,  1.97996795e-02,  1.78096313e-02, -6.88620750e-03,\n",
+       "                        2.58465484e-02,  5.94391953e-03,  2.34638923e-03,  2.98976302e-02,\n",
+       "                        3.56731825e-02, -1.27387010e-02,  1.20613696e-02, -1.44198937e-02,\n",
+       "                       -1.67872403e-02, -5.48574375e-04,  7.29635777e-03, -8.28532875e-03,\n",
+       "                        2.83680565e-04,  2.56444197e-02,  1.48984604e-02, -3.43430380e-04,\n",
+       "                        4.41812212e-03,  1.86183006e-02,  7.07666436e-03,  3.75143392e-03,\n",
+       "                        9.68923140e-03,  2.76730787e-02, -3.37407552e-03,  2.40801903e-03,\n",
+       "                       -1.28472596e-03, -5.40855620e-03, -7.14346534e-04,  1.01167867e-02,\n",
+       "                        3.44231841e-03,  1.92425400e-02, -8.41472019e-03, -1.02022616e-02,\n",
+       "                       -1.02061201e-02,  9.05947702e-04, -6.14283001e-03,  4.40994423e-04,\n",
+       "                       -1.76024865e-02, -1.39886541e-02,  1.95986740e-02,  2.05307566e-02,\n",
+       "                        1.60966927e-04, -1.63520519e-02,  1.70697886e-02,  2.00404339e-02,\n",
+       "                        2.18718946e-02,  2.70666610e-02,  2.73487810e-02, -1.10565051e-02,\n",
+       "                        1.62903816e-02,  1.98205058e-02,  5.71643002e-03, -1.96284540e-02,\n",
+       "                        5.47597371e-03,  1.15929283e-02, -1.57948732e-02,  1.97605533e-03,\n",
+       "                        1.65477523e-03, -5.24721621e-03, -1.28862308e-02,  2.91175768e-02,\n",
+       "                        3.97475623e-03, -8.68490525e-03,  8.40478390e-03, -8.53092875e-03,\n",
+       "                        8.91437568e-03, -8.20621941e-03, -1.69815514e-02, -1.56296149e-03,\n",
+       "                       -1.94094721e-02,  9.14666336e-03, -4.71888436e-03,  5.96455624e-03,\n",
+       "                       -7.23899808e-03, -1.62013900e-02, -8.91631935e-03, -9.16333310e-03,\n",
+       "                        1.36582786e-02, -2.81301048e-02,  1.40030524e-02,  2.21321303e-02,\n",
+       "                        1.70738269e-02, -1.34165427e-02,  9.66804288e-03, -1.41236221e-03,\n",
+       "                       -1.29311462e-03, -1.82988774e-02,  8.06615595e-03,  1.63736492e-02,\n",
+       "                        7.57436035e-03, -1.23931859e-02,  2.11250260e-02,  8.82964674e-03,\n",
+       "                        5.36705414e-03,  9.78771411e-03,  2.97650024e-02,  1.36999404e-02,\n",
+       "                        2.32320745e-02,  1.80442433e-03,  1.46890003e-02,  7.45175406e-03,\n",
+       "                       -2.40189917e-02,  2.32096948e-02,  1.58773493e-02, -1.30231204e-02,\n",
+       "                        1.70866325e-02,  1.14606908e-02, -7.90068973e-03, -3.56196106e-04,\n",
+       "                       -6.42792962e-04,  2.17272229e-02,  7.65779288e-03,  1.05101373e-02,\n",
+       "                        3.35401227e-03,  1.21193146e-02, -7.54443510e-03,  1.46741355e-02,\n",
+       "                        1.48964776e-02,  7.43449712e-03,  2.57233228e-03,  1.05196319e-03,\n",
+       "                        1.60870235e-02, -1.44143356e-04, -7.70768523e-03, -4.54242993e-03,\n",
+       "                        2.23990041e-03,  1.91516653e-02,  1.22645944e-02, -9.79530253e-03,\n",
+       "                        5.54556865e-03,  1.39172201e-03,  1.02477763e-02,  1.17938900e-02,\n",
+       "                        1.09906727e-02, -4.91106976e-03, -2.18414841e-03, -8.83982331e-03,\n",
+       "                        2.20653228e-02,  2.03952175e-02,  1.98832899e-02, -1.55128445e-03,\n",
+       "                       -3.24987195e-04, -2.12468579e-03,  7.74660194e-03, -9.87132732e-03,\n",
+       "                        1.77269569e-03, -1.75155178e-02,  2.02640314e-02,  1.94381177e-02,\n",
+       "                       -6.83493027e-03,  5.30726416e-03,  2.38340460e-02,  8.98609124e-03,\n",
+       "                        4.55694133e-03,  1.06510837e-02,  1.39252860e-02, -6.70732552e-05,\n",
+       "                        1.23598548e-02, -1.31418537e-02,  7.97190145e-03, -3.49693745e-03,\n",
+       "                        2.01660190e-02,  7.97026139e-03, -2.54692102e-04,  1.66945271e-02,\n",
+       "                        8.12765770e-03,  4.78525134e-03,  1.07379351e-02, -1.70712039e-04,\n",
+       "                       -4.91422415e-03, -1.46261165e-02,  8.60630348e-03,  3.46043613e-03,\n",
+       "                        1.63556151e-02, -2.01419517e-02,  7.34371971e-03,  2.09604669e-02,\n",
+       "                       -4.91989404e-03,  2.00477522e-02,  8.49883631e-03, -7.02486327e-03,\n",
+       "                        1.57896075e-02,  6.71546627e-03,  8.28711130e-03,  1.12022590e-02,\n",
+       "                        9.92548559e-03,  1.21114654e-02,  1.82388239e-02, -1.45878103e-02,\n",
+       "                       -4.14639711e-03,  1.76131856e-02, -9.23024770e-03, -8.87810253e-03,\n",
+       "                       -1.08306920e-02,  1.42421983e-02,  5.19373035e-03, -2.37513538e-02,\n",
+       "                        2.26361621e-02,  9.16093995e-04,  2.00996231e-02, -6.26094127e-03,\n",
+       "                       -1.59570146e-02, -8.83307424e-04, -2.30691601e-02,  1.14731037e-03,\n",
+       "                       -2.26202514e-02, -7.53147062e-03,  1.61701851e-02, -5.77796076e-04,\n",
+       "                       -2.96659092e-03, -4.15878883e-03, -3.92619381e-03,  1.09928856e-02,\n",
+       "                       -6.64000632e-03, -1.43695585e-02,  1.63874105e-02,  5.98971080e-03,\n",
+       "                        3.20064626e-03,  4.41091228e-03, -1.66858118e-02,  2.23180708e-02,\n",
+       "                        1.21295657e-02, -1.12690898e-02, -4.08188906e-03,  6.03400357e-03,\n",
+       "                        9.41000879e-03, -2.47898344e-02,  3.84332053e-03, -2.90675904e-03,\n",
+       "                        1.75656620e-02,  1.82535767e-03,  1.69527456e-02,  1.70554612e-02,\n",
+       "                        1.58965960e-02,  9.59413592e-03, -1.36477742e-02, -6.80452771e-03,\n",
+       "                        1.23747848e-02,  1.55602759e-02, -9.33919381e-03, -4.79441776e-04,\n",
+       "                       -2.74120253e-02, -1.70317907e-02,  7.85582885e-03, -2.69122683e-02,\n",
+       "                        1.54303005e-02, -1.24900360e-02, -1.82244158e-03, -5.80713968e-04,\n",
+       "                        2.50871126e-02,  1.17920628e-02,  8.81043635e-03, -1.84596833e-02,\n",
+       "                        1.06913671e-02,  8.91262107e-03,  1.51733793e-02,  1.93881411e-02,\n",
+       "                       -1.48909241e-02,  1.87424663e-02, -7.78475078e-03,  1.11052729e-02,\n",
+       "                        9.85566806e-03,  2.79320199e-02,  8.94294027e-03,  7.57371774e-03,\n",
+       "                       -5.01180999e-03,  1.65897086e-02,  7.87321478e-03, -9.50829685e-03,\n",
+       "                        1.91696696e-02,  1.10584788e-03,  5.57772722e-03,  9.22551844e-03,\n",
+       "                       -1.42724728e-02,  2.05761101e-03,  9.26569104e-03,  9.43784509e-03,\n",
+       "                        5.86663932e-03,  1.16787646e-02,  1.64901260e-02,  1.16064958e-02,\n",
+       "                        1.27171073e-02,  6.72639161e-03, -5.28149540e-04,  4.67793457e-03,\n",
+       "                       -1.56461000e-02,  2.28382964e-02,  6.34732191e-04, -7.66546326e-03,\n",
+       "                       -1.12781981e-02,  1.42416246e-02,  3.58064263e-03, -1.62186753e-03,\n",
+       "                        1.68378465e-02, -8.02798569e-03,  1.53726414e-02, -6.99624233e-03,\n",
+       "                        1.32351890e-02,  1.45837171e-02,  1.30574675e-02,  2.08209585e-02,\n",
+       "                        1.27933007e-02,  2.81269122e-02,  1.33745640e-03, -2.24389415e-02,\n",
+       "                        1.87091082e-02,  7.40896026e-03, -2.13304218e-02, -1.05568739e-02,\n",
+       "                        1.41326403e-02, -1.28459418e-03,  1.25366366e-02, -7.02124741e-03,\n",
+       "                       -7.53937569e-03, -1.25048766e-02, -4.38260660e-03,  7.50464620e-03,\n",
+       "                        1.97301023e-02, -8.34845100e-03, -1.63942091e-02,  2.17455458e-02,\n",
+       "                       -6.29904168e-03, -7.13661546e-03, -1.75990500e-02,  1.82209853e-02,\n",
+       "                        2.12942436e-02, -2.48322147e-03,  1.89036131e-02, -1.94397254e-03,\n",
+       "                        1.41878463e-02,  9.81104188e-03,  1.42406281e-02,  1.03803305e-02,\n",
+       "                        2.19183583e-02,  2.00765505e-02,  9.17724986e-03,  1.92660093e-02,\n",
+       "                       -2.72041163e-03,  6.12203311e-03, -1.05543146e-02, -1.29299359e-02,\n",
+       "                       -1.11266859e-02, -9.32210498e-03, -9.91335791e-03, -2.17839284e-03,\n",
+       "                        1.11390892e-02,  1.00555513e-02, -1.15690997e-03,  6.40681246e-03,\n",
+       "                        4.61202953e-03,  6.93128398e-03, -1.09066963e-02, -2.91597773e-03,\n",
+       "                        1.04544824e-03,  6.25762343e-03,  1.79513339e-02,  3.48348217e-03,\n",
+       "                        2.39446368e-02, -5.20698773e-03,  8.38620495e-03,  5.52680856e-03,\n",
+       "                       -4.84721502e-03,  1.62413325e-02, -7.01867836e-03,  1.65924840e-02,\n",
+       "                        1.36338379e-02,  1.48431053e-02,  1.48721933e-02,  8.85732123e-04,\n",
+       "                        8.52295291e-03, -9.02669318e-03,  3.02526504e-02, -2.07700883e-03,\n",
+       "                        4.68547875e-03,  3.54835507e-03,  2.13338230e-02,  1.50220273e-02,\n",
+       "                       -6.02535671e-03,  1.97854899e-02, -2.00620033e-02, -8.88607185e-03,\n",
+       "                        6.25809189e-04,  2.49126870e-02, -9.88007989e-03, -1.90524850e-03,\n",
+       "                       -2.11622585e-02,  1.24527710e-02,  9.76101309e-03, -3.18096322e-03,\n",
+       "                        1.21807382e-02, -2.09994894e-02, -3.40486411e-03, -3.80637310e-03,\n",
+       "                       -1.00017572e-02,  3.26828659e-03, -1.94694996e-02,  3.76621522e-02,\n",
+       "                       -2.40518022e-02,  6.02365006e-03,  2.09805253e-03, -9.52404691e-04,\n",
+       "                       -1.39954900e-02,  2.41800435e-02,  2.86736488e-02,  1.79633386e-02,\n",
+       "                       -5.79016749e-03,  1.41466688e-02,  7.21023418e-03,  2.89126094e-02,\n",
+       "                        3.13231573e-02,  1.63700022e-02,  1.45204756e-02, -1.04396110e-02,\n",
+       "                       -4.50925250e-03,  8.29984993e-03,  8.99901643e-05, -8.01164564e-03,\n",
+       "                        1.80391222e-02,  1.98991168e-02, -2.79113138e-03,  2.09845658e-02,\n",
+       "                        9.41892527e-03,  1.45994853e-02, -1.45313693e-02,  8.77158064e-03,\n",
+       "                       -2.70679742e-02,  1.80923715e-02, -9.45959799e-03,  4.77605872e-03,\n",
+       "                        2.60386616e-02,  1.14202555e-02,  6.31397264e-03,  2.62519787e-03,\n",
+       "                        1.45881884e-02,  7.31406407e-03,  8.89989920e-03,  2.02203915e-02,\n",
+       "                       -7.16251787e-03,  2.41501890e-02,  3.22476029e-03,  2.06751749e-02,\n",
+       "                        4.73092962e-03, -8.30835383e-03, -1.96678955e-02, -4.87877056e-03,\n",
+       "                        1.03124082e-02,  1.02846436e-02,  1.12687731e-02, -1.97079242e-03,\n",
+       "                        1.75375808e-02, -1.57790724e-02,  5.71746798e-03, -6.58601616e-03,\n",
+       "                       -6.35589473e-03,  9.28526465e-03,  1.34158628e-02,  2.18920186e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._0/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 1.1502154e-02,  3.0195275e-02,  3.4433580e-03, ...,\n",
+       "                        -4.3353168e-03,  1.9910611e-02, -1.3856224e-02],\n",
+       "                       [ 5.6839739e-03,  2.9456308e-02,  2.2852859e-02, ...,\n",
+       "                        -1.9397736e-02,  2.8950260e-03, -2.1839043e-02],\n",
+       "                       [ 1.5003541e-03, -6.0947877e-03,  1.7701474e-03, ...,\n",
+       "                        -2.2228636e-02, -2.5397372e-02,  2.7237378e-02],\n",
+       "                       ...,\n",
+       "                       [-8.5829953e-03,  1.7714988e-03, -3.8301013e-02, ...,\n",
+       "                         1.3236449e-02,  1.2210120e-02, -1.1586262e-02],\n",
+       "                       [-3.3372819e-02,  1.9075049e-02,  1.4666800e-02, ...,\n",
+       "                         8.2554603e-03,  3.6509219e-03, -1.4935212e-02],\n",
+       "                       [ 2.1129467e-03, -8.5969763e-03, -2.0772312e-02, ...,\n",
+       "                        -1.2316188e-05, -3.8625787e-03, -2.1612834e-02]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._0/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-0.01241958,  0.02853034,  0.00683807, -0.00909434, -0.01633247,\n",
+       "                        0.02183856, -0.00105524,  0.00936508, -0.01849056, -0.0228079 ,\n",
+       "                       -0.03805307,  0.01537926,  0.0232118 , -0.01152004, -0.00144519,\n",
+       "                        0.01462283, -0.02123057, -0.00374562, -0.01543367,  0.01980601,\n",
+       "                       -0.01125354,  0.01716148, -0.00419925,  0.01768438, -0.00653506,\n",
+       "                        0.02330243,  0.02034115,  0.00540797, -0.00328603,  0.00323312,\n",
+       "                       -0.006646  , -0.00093303, -0.00532696,  0.00672833,  0.00015488,\n",
+       "                        0.02395755, -0.00312466, -0.00607315, -0.01638863, -0.02672903,\n",
+       "                        0.00969766, -0.00010234,  0.01260834,  0.02663585,  0.01452464,\n",
+       "                       -0.00959755, -0.02336573,  0.00672154, -0.01493897,  0.01388968,\n",
+       "                       -0.00423932,  0.0323926 , -0.02120744,  0.01426661,  0.00509344,\n",
+       "                       -0.02652669, -0.02495514, -0.00018103,  0.02344626,  0.00848018,\n",
+       "                       -0.00409297,  0.01169506,  0.01301485, -0.01236273,  0.00858005,\n",
+       "                        0.01046913, -0.00787587,  0.01130183, -0.01470941,  0.01809805,\n",
+       "                        0.0143772 ,  0.01087649,  0.00210273,  0.00751127,  0.01507526,\n",
+       "                        0.00683949, -0.00109522,  0.03121684, -0.01275832, -0.00581627,\n",
+       "                       -0.01427171,  0.01064673, -0.00053186,  0.00614763, -0.01663968,\n",
+       "                        0.01788151, -0.03325289, -0.00285536, -0.00051261, -0.00639026,\n",
+       "                       -0.01863781,  0.01362973,  0.00018454, -0.00389818,  0.03368738,\n",
+       "                        0.01071555, -0.01569902, -0.01870691,  0.02316205, -0.00841834,\n",
+       "                        0.01257211,  0.01517834, -0.01216789,  0.00544479,  0.00686449,\n",
+       "                       -0.00698842, -0.01006403,  0.00086243, -0.02365486,  0.00670945,\n",
+       "                        0.0390068 ,  0.00385976,  0.00107472, -0.01530283, -0.00273055,\n",
+       "                       -0.00875664,  0.0135286 , -0.00480531,  0.01045919, -0.01012978,\n",
+       "                        0.02552531, -0.01144321,  0.01719082, -0.01037663,  0.00549512,\n",
+       "                       -0.00379107,  0.01855377,  0.01752721,  0.01856578, -0.00760566,\n",
+       "                       -0.01135699, -0.00992793, -0.02295038,  0.00824989,  0.00599996,\n",
+       "                       -0.02123486, -0.00773912, -0.00481055, -0.01155985,  0.00741208,\n",
+       "                        0.01413365, -0.00590017,  0.03520844,  0.00596596, -0.01012237,\n",
+       "                       -0.00325622,  0.01000111, -0.00672712,  0.00253006, -0.02350044,\n",
+       "                       -0.00175385, -0.00105427, -0.02612934, -0.00763389,  0.00502535,\n",
+       "                       -0.00788742, -0.03994568, -0.00025992, -0.00857767, -0.00876805,\n",
+       "                        0.00468722,  0.03416699, -0.01038047, -0.00378856,  0.00473238,\n",
+       "                       -0.00725147, -0.01040328,  0.02098466,  0.0140253 ,  0.01751439,\n",
+       "                        0.00842675,  0.01253181, -0.00643643, -0.0167303 ,  0.0021241 ,\n",
+       "                        0.00140574,  0.00986787, -0.01171913, -0.01513289, -0.00678355,\n",
+       "                        0.01158554, -0.01056996, -0.0075354 ,  0.017674  , -0.02223495,\n",
+       "                       -0.01389522, -0.01531147, -0.00671497, -0.02587223, -0.00409507,\n",
+       "                       -0.00604762,  0.01518861], dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9852155 , 1.0364006 , 1.027549  , 0.98277205, 1.0121615 ,\n",
+       "                       1.0004774 , 0.979088  , 0.98762256, 0.9822612 , 1.0024757 ,\n",
+       "                       1.0178878 , 0.9982759 , 0.9857063 , 1.0386217 , 1.0258405 ,\n",
+       "                       1.0109771 , 1.0249064 , 1.010365  , 1.0099815 , 0.9645096 ,\n",
+       "                       1.0084565 , 1.0489866 , 0.981453  , 0.9962389 , 0.9827237 ,\n",
+       "                       1.0107062 , 1.0454112 , 0.9842302 , 0.9949914 , 0.9944677 ,\n",
+       "                       0.9969635 , 0.9898968 , 0.9921109 , 1.0128655 , 1.0332738 ,\n",
+       "                       0.9949823 , 1.0049902 , 1.041102  , 0.96877766, 0.9986009 ,\n",
+       "                       1.0198799 , 0.9955294 , 1.0086453 , 1.0235807 , 0.9956834 ,\n",
+       "                       1.0039417 , 1.0140501 , 1.0132045 , 0.9853706 , 0.9748088 ,\n",
+       "                       1.0001203 , 1.0847405 , 1.0447997 , 0.9901248 , 1.0031246 ,\n",
+       "                       1.0199534 , 0.9770546 , 0.999394  , 1.0149245 , 1.0473361 ,\n",
+       "                       1.0330361 , 0.9756772 , 0.9943355 , 1.0108433 , 1.0134748 ,\n",
+       "                       1.0013411 , 0.9506735 , 1.0379674 , 1.0353746 , 1.002177  ,\n",
+       "                       1.0023688 , 0.9892762 , 0.9773186 , 1.0141166 , 1.002981  ,\n",
+       "                       1.0191174 , 0.98849046, 1.022799  , 1.0195305 , 1.0230048 ,\n",
+       "                       1.0099448 , 0.98876977, 0.99861807, 0.97954166, 0.99275714,\n",
+       "                       1.0210892 , 1.0309327 , 0.9666654 , 1.0129836 , 0.9747011 ,\n",
+       "                       1.0128973 , 1.012891  , 0.9990587 , 1.0170548 , 1.010477  ,\n",
+       "                       1.0182072 , 1.0451443 , 1.0147196 , 1.0275202 , 1.0031815 ,\n",
+       "                       0.9713346 , 1.0140051 , 1.008478  , 0.97465855, 1.002004  ,\n",
+       "                       0.9743532 , 0.9646272 , 1.0154831 , 1.0049416 , 1.0383679 ,\n",
+       "                       1.0292878 , 1.0018117 , 1.0358334 , 1.0231141 , 0.9852119 ,\n",
+       "                       0.99526   , 1.0031705 , 1.0005804 , 1.0160758 , 1.0009396 ,\n",
+       "                       0.9937701 , 0.97460693, 0.9934284 , 0.9907833 , 0.9996789 ,\n",
+       "                       0.9982435 , 0.95795155, 1.0261976 , 0.9944988 , 0.991796  ,\n",
+       "                       1.006492  , 1.0282378 , 1.0289887 , 0.98540115, 1.0217592 ,\n",
+       "                       1.0396023 , 0.9858527 , 1.0488491 , 1.013778  , 1.0042695 ,\n",
+       "                       1.0170459 , 1.0154129 , 1.063929  , 0.9751546 , 0.9910128 ,\n",
+       "                       0.99503356, 1.0161502 , 0.9895987 , 1.0674409 , 1.0243562 ,\n",
+       "                       0.98804605, 1.0005897 , 0.992049  , 1.0179774 , 1.0048453 ,\n",
+       "                       0.99315923, 1.0526005 , 0.979498  , 1.0266209 , 1.0236341 ,\n",
+       "                       0.99886864, 1.0421077 , 1.0011927 , 0.96343213, 0.99783915,\n",
+       "                       1.02873   , 1.0166678 , 0.99097514, 1.0069718 , 1.0072308 ,\n",
+       "                       1.0127227 , 1.0288228 , 1.0415279 , 1.0005622 , 0.9816634 ,\n",
+       "                       1.0572006 , 1.0198735 , 1.0341889 , 1.0459491 , 1.0213513 ,\n",
+       "                       1.0223459 , 1.0222113 , 0.96529055, 1.022591  , 1.0126592 ,\n",
+       "                       1.0198402 , 1.0261475 , 1.0120711 , 1.0275295 , 0.9952427 ,\n",
+       "                       1.0431594 , 0.97232854], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-2.37033051e-03,  1.91313978e-02,  1.01093650e-02,  4.05753450e-03,\n",
+       "                       -1.70360077e-02,  6.06864411e-03,  9.15885065e-03, -5.63371833e-03,\n",
+       "                       -2.02597678e-03, -2.18763780e-02, -3.09356581e-03, -1.91516075e-02,\n",
+       "                        1.66877150e-03, -2.36133747e-02, -2.20339838e-02, -2.80247089e-02,\n",
+       "                       -2.89943665e-02, -1.30719393e-02, -1.63518302e-02, -2.60582590e-03,\n",
+       "                       -3.11099421e-02,  1.96724385e-02,  3.32913222e-03,  1.69437453e-02,\n",
+       "                       -2.27522640e-03, -8.11038818e-03,  4.56425697e-02, -2.27964334e-02,\n",
+       "                       -1.25466911e-02,  2.61981692e-02,  1.28261317e-02,  9.49844532e-03,\n",
+       "                        2.52729468e-02, -7.68367993e-03,  1.39565291e-02,  1.90326143e-02,\n",
+       "                        1.07567376e-02, -2.58484725e-02, -3.55810975e-03, -1.75751355e-02,\n",
+       "                        1.92785300e-02,  1.84035245e-02,  6.28257543e-03,  9.46599059e-03,\n",
+       "                        3.20155472e-02,  6.54644100e-03, -1.70770939e-03,  3.20957415e-02,\n",
+       "                       -1.10255778e-02,  1.71637558e-03,  1.42931764e-04,  6.96345791e-02,\n",
+       "                       -4.99027446e-02, -1.42051978e-02,  2.29926314e-02, -4.28680517e-02,\n",
+       "                       -2.90031210e-02, -1.41013991e-02, -1.47265557e-03,  4.14010547e-02,\n",
+       "                       -2.40229759e-02, -6.86572865e-03,  5.20605454e-03, -2.06006714e-03,\n",
+       "                        1.92263592e-02,  1.79059729e-02,  1.09153679e-02, -1.67970061e-02,\n",
+       "                       -3.77605371e-02,  1.99129079e-02, -2.10124403e-02,  8.80824681e-03,\n",
+       "                        2.72766445e-02,  8.14127456e-03,  1.92559808e-02,  2.78823264e-02,\n",
+       "                        4.32518590e-03,  2.51557603e-02,  3.51047292e-02,  5.63334860e-03,\n",
+       "                       -4.68640728e-03, -2.18737293e-02, -7.34007731e-03,  9.59546305e-03,\n",
+       "                       -1.38547756e-02,  1.78651828e-02, -2.37801727e-02,  4.65563685e-03,\n",
+       "                       -3.05796915e-04,  1.95858218e-02, -2.20856126e-02, -1.24227609e-02,\n",
+       "                       -1.77869350e-02,  2.46098898e-02,  5.85811818e-03,  5.50471433e-03,\n",
+       "                        4.94662253e-03, -3.92277874e-02,  1.83651447e-02, -1.67005658e-02,\n",
+       "                        1.26100359e-02,  2.88667548e-02, -1.00637684e-02, -5.48522128e-03,\n",
+       "                        1.85373705e-02, -2.42446433e-03,  9.86807607e-03, -3.94466380e-03,\n",
+       "                        3.72836436e-03, -1.00599965e-02,  7.89202005e-03, -1.10111339e-02,\n",
+       "                        4.22599353e-03, -2.47036517e-02,  5.58750471e-04,  1.41762767e-03,\n",
+       "                        1.36968903e-02, -1.66733786e-02,  2.72763204e-02, -2.58759670e-02,\n",
+       "                        1.21340379e-02,  2.35210322e-02,  1.54033285e-02,  1.39820594e-02,\n",
+       "                        5.67326415e-03,  1.50017312e-03, -2.76013114e-03,  2.88881287e-02,\n",
+       "                       -3.20774689e-03,  2.97818799e-02, -1.94280769e-03, -2.28080340e-02,\n",
+       "                        1.21221878e-02, -8.36547278e-03, -3.55398119e-03, -5.41792600e-04,\n",
+       "                       -3.06898518e-03, -2.80403141e-02, -2.86662858e-03, -7.91238155e-03,\n",
+       "                        2.32149065e-02, -1.11842039e-03,  2.01880708e-02, -2.16523418e-03,\n",
+       "                        2.88938568e-03,  1.61452312e-02,  4.12153117e-02,  9.43372492e-03,\n",
+       "                       -3.54020633e-02, -1.30866235e-02,  1.56355500e-02, -1.49343936e-02,\n",
+       "                       -2.56032422e-02,  2.89632153e-05, -2.46269181e-02, -1.50771979e-02,\n",
+       "                       -3.95376608e-02,  5.34949219e-03,  9.42495372e-03, -4.92170919e-03,\n",
+       "                        4.10526711e-03,  2.22940072e-02, -2.31830720e-02, -1.66208707e-02,\n",
+       "                        1.91355534e-02, -3.46482210e-02,  5.57400146e-03, -1.59618463e-02,\n",
+       "                        3.18800770e-02,  2.25322861e-02, -4.54151118e-03,  1.49050048e-02,\n",
+       "                       -2.40489636e-02, -3.10217272e-02, -7.37116206e-03,  1.22891106e-02,\n",
+       "                        2.90672597e-03, -2.32472681e-02, -8.74773785e-03, -1.95246432e-02,\n",
+       "                        6.01558946e-03,  5.16772131e-03,  2.31722388e-02,  2.74683330e-02,\n",
+       "                       -1.15139652e-02, -6.45596720e-03, -2.21686754e-02, -3.20681208e-03,\n",
+       "                       -3.18386555e-02, -1.94104444e-02,  2.18740031e-02,  6.25720434e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._1/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.01058718,  0.03682905,  0.09114693, ..., -0.03453917,\n",
+       "                       -0.01760284,  0.09259388],\n",
+       "                      [-0.00297024, -0.02378768, -0.07082628, ..., -0.06978793,\n",
+       "                        0.05483576, -0.05034392],\n",
+       "                      [-0.08363335, -0.06822307,  0.03970811, ..., -0.12143752,\n",
+       "                        0.11783837,  0.03857919],\n",
+       "                      ...,\n",
+       "                      [-0.01670413, -0.07294234, -0.08620504, ...,  0.10722338,\n",
+       "                        0.00923203, -0.03350214],\n",
+       "                      [ 0.06109136,  0.06042374, -0.00659119, ...,  0.0707885 ,\n",
+       "                       -0.02079144,  0.01066571],\n",
+       "                      [ 0.10982136, -0.02290034, -0.014448  , ..., -0.0806082 ,\n",
+       "                       -0.03159957, -0.01608819]],\n",
+       "              \n",
+       "                     [[-0.11605033, -0.01375149, -0.07468455, ...,  0.01621455,\n",
+       "                        0.08687735,  0.05813948],\n",
+       "                      [ 0.04203267, -0.12218651,  0.09532513, ...,  0.13221355,\n",
+       "                        0.11181808,  0.02940457],\n",
+       "                      [-0.08041264,  0.0090088 , -0.05519261, ...,  0.06512534,\n",
+       "                       -0.0642755 , -0.08553269],\n",
+       "                      ...,\n",
+       "                      [ 0.1317722 ,  0.13678272,  0.0329141 , ...,  0.03373389,\n",
+       "                        0.09339988,  0.0894448 ],\n",
+       "                      [-0.06164918, -0.12587458,  0.09905007, ..., -0.13373971,\n",
+       "                       -0.07916333, -0.01780121],\n",
+       "                      [-0.03096768,  0.08641233,  0.02373505, ...,  0.09452015,\n",
+       "                       -0.03499092,  0.01695814]],\n",
+       "              \n",
+       "                     [[ 0.02651143, -0.06353214, -0.12777635, ...,  0.03804458,\n",
+       "                        0.00197261, -0.10712351],\n",
+       "                      [-0.01875591, -0.00738947,  0.11065426, ...,  0.09544057,\n",
+       "                       -0.05187849,  0.08287732],\n",
+       "                      [ 0.08060304,  0.05765998, -0.12754323, ...,  0.04160313,\n",
+       "                       -0.11778066,  0.03986501],\n",
+       "                      ...,\n",
+       "                      [ 0.11805814,  0.06904506,  0.14718172, ..., -0.02883004,\n",
+       "                        0.07223026,  0.07664383],\n",
+       "                      [-0.09684561, -0.02213801, -0.03465832, ..., -0.02261032,\n",
+       "                        0.07118997,  0.00508467],\n",
+       "                      [ 0.00057492,  0.02659811,  0.04062701, ...,  0.05967619,\n",
+       "                        0.06339315,  0.03982014]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.01507929, -0.07893618, -0.0322073 , ...,  0.07576791,\n",
+       "                       -0.10563017, -0.00738726],\n",
+       "                      [-0.0478123 ,  0.08185118, -0.05651506, ..., -0.0263147 ,\n",
+       "                       -0.02521784, -0.07904705],\n",
+       "                      [-0.0155017 ,  0.05927561, -0.05986115, ..., -0.08566193,\n",
+       "                        0.05634455,  0.110907  ],\n",
+       "                      ...,\n",
+       "                      [ 0.01034647, -0.06524284, -0.0334756 , ...,  0.06058369,\n",
+       "                        0.0865595 , -0.04121307],\n",
+       "                      [-0.01043255,  0.0526881 , -0.08253193, ...,  0.08965821,\n",
+       "                        0.07281312, -0.01089244],\n",
+       "                      [ 0.07120045, -0.04455291, -0.04121703, ..., -0.05069685,\n",
+       "                        0.06488623,  0.1029586 ]],\n",
+       "              \n",
+       "                     [[ 0.02727754,  0.05163872,  0.01280662, ..., -0.00124914,\n",
+       "                       -0.04083077,  0.09018545],\n",
+       "                      [ 0.03548221,  0.03749135, -0.03751899, ..., -0.04528967,\n",
+       "                       -0.03048984, -0.05268783],\n",
+       "                      [-0.06498884, -0.00233416, -0.03278327, ..., -0.07556193,\n",
+       "                        0.09041151, -0.0185978 ],\n",
+       "                      ...,\n",
+       "                      [ 0.05837246, -0.090928  ,  0.05213014, ...,  0.08073077,\n",
+       "                       -0.02314409, -0.04946245],\n",
+       "                      [ 0.04946104,  0.05461764,  0.02328938, ...,  0.10022704,\n",
+       "                       -0.03574402,  0.01422984],\n",
+       "                      [ 0.06283685, -0.04212229,  0.06461163, ..., -0.04840949,\n",
+       "                       -0.03460325,  0.00901603]],\n",
+       "              \n",
+       "                     [[ 0.01957136, -0.10803653, -0.120051  , ...,  0.05207831,\n",
+       "                        0.04294526, -0.13189642],\n",
+       "                      [ 0.07092424, -0.09620617,  0.15316002, ...,  0.18548235,\n",
+       "                        0.03283798, -0.00430182],\n",
+       "                      [ 0.12585637,  0.09406012, -0.02678724, ...,  0.15702237,\n",
+       "                       -0.11289927, -0.06027082],\n",
+       "                      ...,\n",
+       "                      [-0.02933937,  0.04369094,  0.04304244, ..., -0.06891637,\n",
+       "                        0.09840393,  0.06937052],\n",
+       "                      [-0.09791669, -0.14413498,  0.1201906 , ..., -0.1417487 ,\n",
+       "                       -0.01431887,  0.07915976],\n",
+       "                      [-0.12835288,  0.02503126,  0.06159561, ...,  0.06953844,\n",
+       "                        0.07483927, -0.00633557]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._1/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-5.90210855e-02,  4.34171669e-02, -1.99635141e-03, ...,\n",
+       "                       -2.44745705e-02,  9.98274889e-03, -4.79703546e-02],\n",
+       "                      [-2.75882166e-02,  9.31519084e-03,  3.69278379e-02, ...,\n",
+       "                       -4.56331018e-03, -4.12776135e-02,  1.14590205e-01],\n",
+       "                      [ 3.64195593e-02,  1.58521105e-02, -1.81169366e-03, ...,\n",
+       "                        3.14169787e-02, -6.23576753e-02,  1.52163242e-03],\n",
+       "                      ...,\n",
+       "                      [-6.99238200e-03,  5.00007086e-02,  2.39356533e-02, ...,\n",
+       "                       -9.98626091e-03, -2.38673594e-02,  4.39484284e-04],\n",
+       "                      [-2.19905470e-02, -2.52510794e-02, -2.14587487e-02, ...,\n",
+       "                       -4.18025665e-02,  2.49287635e-02, -1.54041843e-02],\n",
+       "                      [-3.79781984e-02, -1.87126379e-02, -1.99985690e-02, ...,\n",
+       "                        4.43660878e-02, -1.27250701e-02,  1.84512883e-02]],\n",
+       "              \n",
+       "                     [[ 5.41945063e-02,  1.34145143e-02,  2.77874246e-03, ...,\n",
+       "                       -1.96275264e-02,  1.13267377e-02, -7.53151327e-02],\n",
+       "                      [-2.57847179e-02,  1.59293264e-02, -2.07306109e-02, ...,\n",
+       "                       -8.93725175e-03, -4.47612628e-02,  3.60955410e-02],\n",
+       "                      [ 5.62713705e-02,  1.73182245e-02, -3.89385241e-04, ...,\n",
+       "                       -1.96348689e-02,  9.15800314e-03,  3.72796655e-02],\n",
+       "                      ...,\n",
+       "                      [-7.02946708e-02, -4.45559956e-02, -1.17102703e-02, ...,\n",
+       "                       -3.87443602e-02, -1.17546711e-02, -5.91564924e-02],\n",
+       "                      [ 2.06296332e-03,  4.28916253e-02, -2.77703851e-02, ...,\n",
+       "                        3.47270779e-02,  6.60240874e-02,  2.54680440e-02],\n",
+       "                      [-1.49701638e-02, -6.02386929e-02, -2.47875825e-02, ...,\n",
+       "                       -1.61316264e-02,  2.95853242e-02, -5.91987073e-02]],\n",
+       "              \n",
+       "                     [[-4.37036753e-02, -6.95727346e-03,  2.36706119e-02, ...,\n",
+       "                       -9.38698556e-03,  3.88122424e-02,  2.49317791e-02],\n",
+       "                      [ 1.27064716e-02, -2.35662591e-02, -2.61280220e-02, ...,\n",
+       "                        7.28443777e-03,  8.27534422e-02,  7.51149887e-03],\n",
+       "                      [-5.24830706e-02, -3.81087908e-03,  1.30844116e-02, ...,\n",
+       "                        6.81623304e-03,  2.32157055e-02, -5.30048907e-02],\n",
+       "                      ...,\n",
+       "                      [-4.61471193e-02,  1.03602861e-03, -4.46353555e-02, ...,\n",
+       "                        2.28072926e-02, -1.36079732e-02, -2.53427215e-02],\n",
+       "                      [ 2.07929667e-02, -2.94016507e-02,  5.45149893e-02, ...,\n",
+       "                       -2.74515636e-02, -9.74052548e-02,  8.14550277e-03],\n",
+       "                      [ 9.77054797e-03, -9.50433221e-03,  7.28448946e-03, ...,\n",
+       "                       -3.74069698e-02, -3.43832858e-02, -3.92707661e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 6.10093474e-02,  1.68410763e-02,  8.68699979e-03, ...,\n",
+       "                       -3.45595144e-02,  3.28637511e-02, -4.64203767e-05],\n",
+       "                      [ 7.97479451e-02, -2.38789544e-02,  2.74105147e-02, ...,\n",
+       "                       -4.17989865e-03,  2.49404870e-02,  6.70280159e-02],\n",
+       "                      [ 4.83222480e-04, -4.25363481e-02,  6.34995773e-02, ...,\n",
+       "                        4.12282310e-02, -1.54497288e-02, -4.75513749e-02],\n",
+       "                      ...,\n",
+       "                      [-3.38124484e-02,  1.39421206e-02,  6.07055658e-03, ...,\n",
+       "                       -2.44325697e-02, -3.31673808e-02,  4.83592227e-03],\n",
+       "                      [ 7.39810523e-04, -8.04365706e-03,  3.52239385e-02, ...,\n",
+       "                       -4.01173607e-02, -6.56333640e-02,  2.45116055e-02],\n",
+       "                      [-1.14331609e-02,  1.55496271e-02,  5.85486293e-02, ...,\n",
+       "                        2.79851649e-02, -1.92271871e-03, -2.75689736e-02]],\n",
+       "              \n",
+       "                     [[ 2.35009473e-02, -3.08533590e-02,  4.36399970e-03, ...,\n",
+       "                       -2.93166190e-03,  1.46314385e-03,  5.68151474e-04],\n",
+       "                      [-4.93079200e-02, -1.97271518e-02,  3.50344703e-02, ...,\n",
+       "                        2.04764493e-02, -4.60682251e-03,  1.08513152e-02],\n",
+       "                      [ 6.89943740e-03,  2.28747390e-02,  9.06581699e-05, ...,\n",
+       "                        2.52446663e-02, -2.19965056e-02, -7.60986877e-04],\n",
+       "                      ...,\n",
+       "                      [-2.55710836e-02,  5.00606634e-02, -3.40986438e-02, ...,\n",
+       "                       -4.90233079e-02,  1.36359530e-02,  2.61313133e-02],\n",
+       "                      [-4.76434920e-03, -1.00291260e-02, -3.64733823e-02, ...,\n",
+       "                       -3.12171355e-02,  5.43197058e-02,  6.78825472e-03],\n",
+       "                      [ 3.33094154e-03,  2.56252754e-02, -4.12063822e-02, ...,\n",
+       "                        2.19627749e-02,  2.01614574e-02,  2.65088282e-03]],\n",
+       "              \n",
+       "                     [[ 3.51362936e-02,  2.48704609e-02,  3.57548483e-02, ...,\n",
+       "                       -2.47696275e-03, -6.84352545e-03,  4.15612645e-02],\n",
+       "                      [-2.16142964e-02,  3.19883004e-02, -3.55823301e-02, ...,\n",
+       "                       -7.67420605e-02, -3.91073665e-03,  7.03935279e-03],\n",
+       "                      [-4.79541570e-02, -2.93009151e-02,  2.61855195e-03, ...,\n",
+       "                       -4.90158983e-02,  4.67158407e-02, -1.52994962e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.18879750e-02, -3.51569764e-02,  2.65400689e-02, ...,\n",
+       "                       -4.44353409e-02, -2.41325963e-02, -1.79594886e-02],\n",
+       "                      [ 1.76957212e-02,  3.91266383e-02, -3.90461832e-02, ...,\n",
+       "                        6.36743829e-02,  1.41147627e-02,  2.26510391e-02],\n",
+       "                      [ 5.80539107e-02, -1.34982064e-03,  8.36841110e-03, ...,\n",
+       "                       -2.82480065e-02, -2.39372402e-02, -6.27177358e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._1/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.03499625,  0.10368989,  0.02441348, ..., -0.003244  ,\n",
+       "                        0.1242573 , -0.02445888],\n",
+       "                      [ 0.06626423,  0.03306542,  0.04200595, ..., -0.00377446,\n",
+       "                       -0.04789376, -0.00962668],\n",
+       "                      [ 0.02439465,  0.03888132,  0.0930598 , ...,  0.02133278,\n",
+       "                        0.00426779, -0.0027867 ],\n",
+       "                      ...,\n",
+       "                      [-0.07516909,  0.00131968,  0.08840876, ...,  0.0255404 ,\n",
+       "                        0.03979552, -0.00712845],\n",
+       "                      [ 0.02686626,  0.0474382 , -0.03639288, ..., -0.01380529,\n",
+       "                       -0.07007378, -0.0813513 ],\n",
+       "                      [ 0.03377542,  0.02405026,  0.03543339, ...,  0.10293096,\n",
+       "                        0.00264665,  0.01565776]],\n",
+       "              \n",
+       "                     [[-0.08188748,  0.05205513,  0.01543365, ..., -0.04916153,\n",
+       "                       -0.00486754,  0.02816534],\n",
+       "                      [ 0.03138385, -0.01935313, -0.00362915, ..., -0.03934926,\n",
+       "                       -0.03689792,  0.0408057 ],\n",
+       "                      [ 0.03388436,  0.01132539, -0.00629398, ..., -0.0243766 ,\n",
+       "                        0.01286879, -0.01746798],\n",
+       "                      ...,\n",
+       "                      [-0.02282297, -0.0242937 , -0.00180181, ..., -0.04940225,\n",
+       "                        0.02674352, -0.03147774],\n",
+       "                      [-0.00590355,  0.05113911, -0.05632209, ...,  0.01716853,\n",
+       "                        0.053973  , -0.01721259],\n",
+       "                      [ 0.01434179, -0.07245232,  0.04085753, ..., -0.0078034 ,\n",
+       "                       -0.0121857 , -0.03913871]],\n",
+       "              \n",
+       "                     [[-0.00695662, -0.04655296,  0.03048942, ...,  0.06132224,\n",
+       "                       -0.02065242, -0.02096963],\n",
+       "                      [ 0.04609573, -0.01144827, -0.06003907, ..., -0.0560175 ,\n",
+       "                        0.02100761,  0.0228186 ],\n",
+       "                      [-0.03846058,  0.03252802,  0.00800997, ...,  0.07366328,\n",
+       "                       -0.0163412 , -0.10112622],\n",
+       "                      ...,\n",
+       "                      [-0.07112869,  0.10818554, -0.01021741, ...,  0.00266738,\n",
+       "                       -0.10965998,  0.02935306],\n",
+       "                      [ 0.05889724, -0.12726855,  0.12080267, ..., -0.03079782,\n",
+       "                        0.0906305 ,  0.01734046],\n",
+       "                      [-0.02777254, -0.0228948 ,  0.0578153 , ..., -0.03823967,\n",
+       "                        0.06430312, -0.01865608]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-0.05212348,  0.06225601,  0.02271289, ...,  0.03182417,\n",
+       "                        0.08700036, -0.0555932 ],\n",
+       "                      [-0.03063332,  0.02239786,  0.04392305, ..., -0.06799869,\n",
+       "                       -0.08198479, -0.07357355],\n",
+       "                      [-0.02034809, -0.01488189,  0.04446471, ...,  0.04523299,\n",
+       "                        0.02299662, -0.08508556],\n",
+       "                      ...,\n",
+       "                      [-0.0630619 , -0.00326777,  0.07529815, ...,  0.07736243,\n",
+       "                       -0.02641278, -0.01558439],\n",
+       "                      [-0.00505954, -0.00527645,  0.00349639, ..., -0.08421702,\n",
+       "                       -0.15770313, -0.01171341],\n",
+       "                      [ 0.05193078, -0.02109497, -0.01585859, ...,  0.04012403,\n",
+       "                        0.00776516, -0.00768213]],\n",
+       "              \n",
+       "                     [[-0.01086067, -0.01013926, -0.02052613, ..., -0.04621197,\n",
+       "                       -0.02328359, -0.02165491],\n",
+       "                      [ 0.00678213,  0.04759999,  0.03928592, ...,  0.00628171,\n",
+       "                       -0.03659431, -0.14732365],\n",
+       "                      [-0.03558236, -0.02751897,  0.09481781, ...,  0.03997346,\n",
+       "                        0.00752993, -0.04923102],\n",
+       "                      ...,\n",
+       "                      [-0.01625077,  0.0435727 ,  0.0224928 , ..., -0.0035042 ,\n",
+       "                       -0.01483486,  0.00095091],\n",
+       "                      [ 0.00197387, -0.00375712, -0.09286434, ...,  0.00430453,\n",
+       "                       -0.07713191, -0.00726935],\n",
+       "                      [ 0.00977126,  0.02570093,  0.03785006, ...,  0.05807488,\n",
+       "                       -0.03257946,  0.01100252]],\n",
+       "              \n",
+       "                     [[ 0.01490742, -0.0075912 ,  0.04570058, ...,  0.02852859,\n",
+       "                       -0.06967055,  0.05600562],\n",
+       "                      [-0.06049841,  0.04676878, -0.0356914 , ..., -0.09061135,\n",
+       "                        0.02721851,  0.1031031 ],\n",
+       "                      [-0.02274511, -0.03750526, -0.04827409, ...,  0.04286766,\n",
+       "                        0.03133019, -0.09780896],\n",
+       "                      ...,\n",
+       "                      [ 0.01363596, -0.01576995,  0.03846902, ..., -0.02080678,\n",
+       "                       -0.0135158 , -0.03386639],\n",
+       "                      [ 0.03265294, -0.03636529,  0.00703335, ...,  0.02018376,\n",
+       "                        0.09976398,  0.01334047],\n",
+       "                      [ 0.04487696,  0.00229338, -0.00530353, ..., -0.04746012,\n",
+       "                       -0.04386255,  0.00277895]]], dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._1/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-2.60222312e-02,  5.84395118e-02, -4.04157117e-02, ...,\n",
+       "                        1.48216095e-02,  4.02947480e-05, -5.04574403e-02],\n",
+       "                      [-6.21017255e-02,  2.54838169e-02, -1.11651523e-02, ...,\n",
+       "                       -9.53497216e-02,  3.88340950e-02, -4.70961332e-02],\n",
+       "                      [ 6.00389540e-02,  2.73694806e-02,  4.47529890e-02, ...,\n",
+       "                        1.50397392e-02,  1.18650291e-02,  3.46209039e-03],\n",
+       "                      ...,\n",
+       "                      [-2.76118517e-02,  6.55359104e-02,  6.68228492e-02, ...,\n",
+       "                        4.72235866e-02, -2.42901035e-02, -1.06963292e-01],\n",
+       "                      [-2.77316780e-03,  1.53887141e-02,  7.71147236e-02, ...,\n",
+       "                       -5.19116297e-02, -7.69299194e-02,  5.24399942e-03],\n",
+       "                      [-2.73462981e-02,  1.70894191e-02, -8.97630677e-02, ...,\n",
+       "                        9.27861407e-02, -3.92925851e-02,  2.44278256e-02]],\n",
+       "              \n",
+       "                     [[-2.29248293e-02,  3.18437591e-02,  1.77433379e-02, ...,\n",
+       "                        8.18003118e-02,  9.53000132e-03, -2.18560249e-02],\n",
+       "                      [ 4.04776027e-03, -4.45191078e-02, -4.65767570e-02, ...,\n",
+       "                       -8.41830205e-03,  4.19528745e-02,  1.65497605e-02],\n",
+       "                      [-8.12439155e-03,  2.35381648e-02,  2.96809077e-02, ...,\n",
+       "                        1.54563710e-02, -4.40086611e-02,  5.35383215e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.31634337e-02,  2.52157692e-02, -1.08905993e-02, ...,\n",
+       "                        3.34993191e-02,  9.85676330e-03, -7.43922517e-02],\n",
+       "                      [-2.42449529e-03,  5.92559986e-02,  5.11595160e-02, ...,\n",
+       "                       -2.74109095e-02, -1.07686250e-02, -2.58762110e-02],\n",
+       "                      [ 8.77888687e-03,  4.15485119e-03,  4.07865457e-02, ...,\n",
+       "                       -3.36937904e-02, -4.15369943e-02,  1.63083058e-02]],\n",
+       "              \n",
+       "                     [[ 5.59731163e-02,  9.40865837e-04, -3.99676114e-02, ...,\n",
+       "                        3.92957008e-05,  2.13426407e-02,  6.93521276e-02],\n",
+       "                      [-2.31576152e-02, -1.13683179e-01, -7.08401650e-02, ...,\n",
+       "                       -4.93601114e-02,  1.60239451e-02, -6.02123514e-03],\n",
+       "                      [-5.44834472e-02,  9.73903015e-02,  2.66058408e-02, ...,\n",
+       "                       -1.03222691e-02, -3.13847288e-02,  8.17910396e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.32927050e-02,  1.65277743e-04,  2.83438880e-02, ...,\n",
+       "                       -3.37208360e-02, -8.07579886e-03,  5.44273034e-02],\n",
+       "                      [ 1.37472153e-02, -1.74567997e-02,  2.51554549e-02, ...,\n",
+       "                       -2.99388468e-02,  2.51911394e-02, -2.83543076e-02],\n",
+       "                      [-6.73618494e-03, -1.49712656e-02,  2.21684668e-02, ...,\n",
+       "                        1.94804482e-02, -8.13565031e-02, -6.77165529e-03]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[-8.68965462e-02, -4.31557857e-02,  5.51183000e-02, ...,\n",
+       "                        1.32108117e-02,  6.31776229e-02,  1.33024743e-02],\n",
+       "                      [-1.91593207e-02,  2.63363961e-02,  5.12307882e-02, ...,\n",
+       "                       -5.01694344e-03, -2.47832928e-02,  1.00958712e-01],\n",
+       "                      [-2.98409574e-02, -2.89197396e-02, -2.96355560e-02, ...,\n",
+       "                       -2.28063716e-03,  1.55943036e-02,  4.19797488e-02],\n",
+       "                      ...,\n",
+       "                      [ 4.23408533e-03, -4.96497378e-03, -4.33851629e-02, ...,\n",
+       "                        6.77778106e-03,  1.08948061e-02, -2.46948246e-02],\n",
+       "                      [ 9.09509894e-04,  2.35100873e-02, -7.15512782e-03, ...,\n",
+       "                       -3.03056045e-03,  2.06068903e-02,  6.78216899e-03],\n",
+       "                      [-4.98484494e-03, -1.67775713e-02, -2.53081992e-02, ...,\n",
+       "                       -1.72428526e-02, -5.96908294e-03, -2.81756073e-02]],\n",
+       "              \n",
+       "                     [[-4.06549759e-02, -8.54958817e-02,  3.20118181e-02, ...,\n",
+       "                       -9.01027210e-03, -5.83289266e-02,  3.13874111e-02],\n",
+       "                      [ 3.72208804e-02, -3.50959525e-02,  5.92664853e-02, ...,\n",
+       "                       -2.44024489e-02, -6.03382662e-03,  1.07590649e-02],\n",
+       "                      [ 3.33920643e-02, -5.07712923e-02, -9.08425674e-02, ...,\n",
+       "                       -6.12898469e-02, -1.19671691e-02, -4.63146809e-03],\n",
+       "                      ...,\n",
+       "                      [ 4.64089513e-02,  6.24940842e-02, -1.78400706e-02, ...,\n",
+       "                       -5.61551414e-02,  2.23524822e-03, -8.09779540e-02],\n",
+       "                      [-3.31087760e-03, -2.66115982e-02, -7.24890828e-02, ...,\n",
+       "                        1.27035836e-02,  5.93658872e-02,  8.49522091e-03],\n",
+       "                      [ 1.13903126e-02, -1.16416551e-02,  1.85670867e-03, ...,\n",
+       "                        5.33347242e-02,  6.44833669e-02, -6.31448403e-02]],\n",
+       "              \n",
+       "                     [[ 1.38157615e-02, -1.05966637e-02,  1.91061124e-02, ...,\n",
+       "                       -1.72999837e-02,  3.70878652e-02,  6.20286353e-02],\n",
+       "                      [ 4.28929105e-02, -6.32598251e-02, -3.70433405e-02, ...,\n",
+       "                       -4.56658714e-02, -1.95915881e-03,  4.43299115e-02],\n",
+       "                      [ 6.37003360e-03,  2.75323503e-02,  2.10666880e-02, ...,\n",
+       "                        2.99344473e-02, -7.49587268e-02, -2.17993911e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.61318574e-02,  1.23811746e-02, -4.05440964e-02, ...,\n",
+       "                       -4.31292690e-02, -5.03470190e-03,  8.24712291e-02],\n",
+       "                      [ 1.03769107e-02, -5.79541735e-02,  2.62607299e-02, ...,\n",
+       "                       -2.69387923e-02,  9.70299020e-02, -3.52974050e-02],\n",
+       "                      [ 3.55976028e-03, -5.50291240e-02,  1.23006878e-02, ...,\n",
+       "                       -2.95966566e-02,  1.54959597e-03, -4.86069024e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._1/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-8.38483348e-02,  2.31822193e-01,  2.13851690e-01, ...,\n",
+       "                       -2.00468123e-01, -2.14652777e-01,  2.08049536e-01],\n",
+       "                      [-2.34030768e-01,  2.41249323e-01, -2.31723949e-01, ...,\n",
+       "                       -2.54080921e-01, -2.33921319e-01, -5.12737259e-02],\n",
+       "                      [-1.99249625e-01, -2.08326742e-01,  2.03389093e-01, ...,\n",
+       "                       -2.03826278e-01,  1.76336125e-01,  1.87720701e-01],\n",
+       "                      ...,\n",
+       "                      [-2.20984355e-01, -2.07582161e-01, -1.95750266e-01, ...,\n",
+       "                        2.08051935e-01, -2.13183627e-01, -2.18951046e-01],\n",
+       "                      [ 2.34683201e-01,  2.27226704e-01, -2.16619805e-01, ...,\n",
+       "                        2.16790468e-01,  4.32744212e-02, -2.23970264e-01],\n",
+       "                      [ 1.94806844e-01, -2.15571046e-01, -2.06097513e-01, ...,\n",
+       "                       -1.86244786e-01, -2.13676661e-01,  1.89965457e-01]],\n",
+       "              \n",
+       "                     [[-4.42975238e-02,  1.57630265e-01,  1.39424905e-01, ...,\n",
+       "                       -1.41038075e-01, -1.42241895e-01,  1.25623509e-01],\n",
+       "                      [-1.77921757e-01,  2.11967751e-01, -2.26524919e-01, ...,\n",
+       "                       -2.06062928e-01, -1.65586978e-01, -6.95726722e-02],\n",
+       "                      [-1.67247087e-01, -1.81318477e-01,  1.69467747e-01, ...,\n",
+       "                       -1.53485283e-01,  1.45415887e-01,  1.55260712e-01],\n",
+       "                      ...,\n",
+       "                      [-1.56913519e-01, -1.62249088e-01, -1.55204266e-01, ...,\n",
+       "                        1.43444046e-01, -1.71046078e-01, -1.73904091e-01],\n",
+       "                      [ 1.93635926e-01,  1.84336051e-01, -1.62056550e-01, ...,\n",
+       "                        1.63478047e-01,  5.67336865e-02, -1.82519183e-01],\n",
+       "                      [ 1.30791783e-01, -1.74211666e-01, -1.54282048e-01, ...,\n",
+       "                       -1.46142587e-01, -1.47283003e-01,  1.45004332e-01]],\n",
+       "              \n",
+       "                     [[-2.23763194e-02,  1.10548735e-01,  1.13961585e-01, ...,\n",
+       "                       -1.22846209e-01, -1.08001612e-01,  1.11099504e-01],\n",
+       "                      [-1.14903681e-01,  1.45980194e-01, -1.62076205e-01, ...,\n",
+       "                       -1.62138835e-01, -9.93332192e-02, -7.59295821e-02],\n",
+       "                      [-1.45943806e-01, -1.26423165e-01,  1.24939464e-01, ...,\n",
+       "                       -1.33653075e-01,  1.16453014e-01,  1.28419548e-01],\n",
+       "                      ...,\n",
+       "                      [-1.26157984e-01, -1.08254664e-01, -8.86367038e-02, ...,\n",
+       "                        1.13142304e-01, -1.27986267e-01, -1.10967726e-01],\n",
+       "                      [ 1.16902225e-01,  1.07311599e-01, -1.10993914e-01, ...,\n",
+       "                        1.04065351e-01,  1.92454439e-02, -1.18891507e-01],\n",
+       "                      [ 1.13881476e-01, -1.50544882e-01, -1.11293599e-01, ...,\n",
+       "                       -1.21600345e-01, -1.28881380e-01,  9.90573615e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.93198472e-02,  6.93891384e-03, -4.82873758e-03, ...,\n",
+       "                       -1.50235975e-02, -1.00725377e-02,  1.56699177e-02],\n",
+       "                      [-2.69417316e-02, -4.01566876e-03,  4.03324189e-03, ...,\n",
+       "                       -8.51614960e-03, -3.55929099e-02, -5.41607477e-03],\n",
+       "                      [-1.07945260e-02, -1.79390702e-02,  2.18113307e-02, ...,\n",
+       "                        6.78763073e-03,  3.28163756e-03,  7.78386369e-03],\n",
+       "                      ...,\n",
+       "                      [-2.11943276e-02, -8.45365506e-03,  1.17011685e-02, ...,\n",
+       "                       -8.47376324e-03,  3.70026659e-03, -7.69790495e-03],\n",
+       "                      [ 1.43602286e-02,  3.27432156e-02, -5.92936995e-03, ...,\n",
+       "                       -1.84389483e-03, -2.91338190e-02, -2.82475073e-02],\n",
+       "                      [-2.68418621e-03, -2.05291342e-02, -1.38617102e-02, ...,\n",
+       "                       -4.46502399e-03, -1.31602371e-02,  6.19610026e-03]],\n",
+       "              \n",
+       "                     [[-1.87813640e-02, -2.63269134e-02, -1.35467686e-02, ...,\n",
+       "                       -2.06283585e-05, -5.63498447e-03, -1.40132979e-02],\n",
+       "                      [ 5.37434453e-03, -1.43898698e-02,  2.40073241e-02, ...,\n",
+       "                        8.42722040e-03, -3.47347138e-03,  1.19807702e-02],\n",
+       "                      [-1.89414732e-02, -3.28293927e-02, -9.62402113e-03, ...,\n",
+       "                       -1.11551620e-02,  4.27324371e-03, -1.12305075e-04],\n",
+       "                      ...,\n",
+       "                      [-6.51453482e-03,  2.68651464e-04,  7.75489898e-04, ...,\n",
+       "                       -8.65114154e-04,  7.63286138e-03, -1.33012878e-02],\n",
+       "                      [-1.50750997e-02, -2.27773674e-02, -2.01963820e-02, ...,\n",
+       "                        1.64635864e-03,  3.78539898e-02,  2.20775940e-02],\n",
+       "                      [ 1.35440622e-02, -4.92055668e-03, -1.59007441e-02, ...,\n",
+       "                        2.61085276e-02,  6.35240786e-03,  8.60315282e-03]],\n",
+       "              \n",
+       "                     [[-2.15803366e-02, -1.08087119e-02,  1.13709420e-02, ...,\n",
+       "                        1.47044407e-02, -2.82886941e-02,  6.49623806e-04],\n",
+       "                      [-1.10477405e-02,  1.12885274e-02, -2.90112663e-02, ...,\n",
+       "                       -3.87257524e-02,  8.90175719e-03, -7.54495966e-04],\n",
+       "                      [-1.06526650e-02, -6.90023275e-03, -4.19768179e-03, ...,\n",
+       "                       -2.53874697e-02,  2.86018532e-02,  2.44459196e-04],\n",
+       "                      ...,\n",
+       "                      [-1.67301565e-03, -2.12795567e-02, -1.19224796e-02, ...,\n",
+       "                        1.46442349e-03, -2.22806130e-02,  6.63924683e-03],\n",
+       "                      [ 8.91273934e-03,  7.14669749e-03, -9.62579716e-03, ...,\n",
+       "                        1.16560189e-02,  3.91952768e-02, -9.79734119e-04],\n",
+       "                      [ 6.38183206e-03, -1.34688336e-02, -3.29984315e-02, ...,\n",
+       "                       -1.66492760e-02, -1.30946925e-02,  1.18787466e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.16423106, -0.38469982, -0.3735132 , -0.36062995,  0.35491672,\n",
+       "                       0.30675378, -0.369757  , -0.3735996 ,  0.3361493 ,  0.37155104,\n",
+       "                       0.35529906, -0.35900527],\n",
+       "                     [ 0.36032292, -0.39533597,  0.4067043 ,  0.38665825, -0.41844591,\n",
+       "                      -0.38407317,  0.06665102, -0.40094855,  0.12981749,  0.40708718,\n",
+       "                       0.33704334,  0.20176134],\n",
+       "                     [ 0.3641929 ,  0.33772156, -0.34157228, -0.33064222,  0.35928902,\n",
+       "                       0.3505296 , -0.28917113, -0.34267342,  0.3471515 ,  0.36000434,\n",
+       "                      -0.3539097 , -0.35714412],\n",
+       "                     [-0.06508783, -0.05261745, -0.05787039,  0.09592804, -0.06872641,\n",
+       "                       0.08248961, -0.07226678,  0.00372567, -0.09185885, -0.07624064,\n",
+       "                       0.09824912, -0.08826314],\n",
+       "                     [-0.22535086,  0.21506163, -0.25742465,  0.26241964,  0.27259424,\n",
+       "                      -0.25935054,  0.24944761,  0.27162278, -0.2758658 ,  0.25455403,\n",
+       "                       0.26993272,  0.24947089],\n",
+       "                     [ 0.37321004, -0.3610165 , -0.383247  , -0.30993   ,  0.37258562,\n",
+       "                       0.36062348, -0.38371515,  0.38435444, -0.38472158, -0.34580302,\n",
+       "                       0.37965068,  0.38216782],\n",
+       "                     [-0.34043455,  0.3586589 , -0.36051637, -0.36393365,  0.35452688,\n",
+       "                       0.34583843, -0.34793818, -0.35648507,  0.33329266, -0.34890217,\n",
+       "                      -0.30480897, -0.09687542],\n",
+       "                     [ 0.310171  , -0.30914274,  0.35169226, -0.32440984, -0.31516263,\n",
+       "                       0.32149366,  0.33308968, -0.32703304,  0.32237175,  0.31805748,\n",
+       "                      -0.32791835,  0.34103537],\n",
+       "                     [ 0.36250067, -0.33055764, -0.36182252, -0.3633704 ,  0.38364542,\n",
+       "                       0.3653513 , -0.3732293 , -0.36713484,  0.3482648 ,  0.37021795,\n",
+       "                      -0.3800607 ,  0.36612317],\n",
+       "                     [-0.34819588, -0.34070075, -0.3344505 , -0.35448986, -0.3323576 ,\n",
+       "                       0.33474264, -0.34396207,  0.1850862 ,  0.34518316,  0.33939794,\n",
+       "                       0.3087188 ,  0.3154903 ],\n",
+       "                     [-0.00521268, -0.34966052,  0.39728355,  0.40286958,  0.14113763,\n",
+       "                       0.18338075,  0.3778582 ,  0.39929968,  0.40352193, -0.39589   ,\n",
+       "                       0.270306  , -0.39130443],\n",
+       "                     [-0.305632  ,  0.2914839 , -0.32076323,  0.29640222,  0.29829288,\n",
+       "                       0.30555987,  0.28363493, -0.30603474, -0.31561756, -0.30635628,\n",
+       "                       0.29470092,  0.30267796],\n",
+       "                     [-0.3363766 ,  0.27769837, -0.2979814 ,  0.10399283, -0.32105902,\n",
+       "                      -0.2958556 ,  0.3237104 , -0.32333454,  0.32940948, -0.32844833,\n",
+       "                       0.33393648, -0.32689664],\n",
+       "                     [ 0.33623135,  0.33165646,  0.33231246,  0.35222378, -0.33671835,\n",
+       "                      -0.34248263, -0.34308332, -0.34815285, -0.33481395, -0.33606663,\n",
+       "                       0.34226522,  0.33676723],\n",
+       "                     [-0.3630526 , -0.3629615 ,  0.34469852,  0.3607127 ,  0.31636032,\n",
+       "                       0.35155934, -0.28929582, -0.23626964,  0.34002408, -0.33735183,\n",
+       "                      -0.12177668,  0.37182054],\n",
+       "                     [-0.27733785,  0.30173358,  0.307238  ,  0.30162957,  0.30647627,\n",
+       "                       0.3053079 , -0.30058998, -0.27784744, -0.29578808,  0.30614874,\n",
+       "                       0.29812562, -0.3038099 ]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._1/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.0153784 ,  0.15187919,  0.16422549,  0.11557093, -0.15214883,\n",
+       "                      -0.0108751 ,  0.1496656 ,  0.16429852, -0.08917865, -0.08614036,\n",
+       "                      -0.10626242,  0.20114891],\n",
+       "                     [-0.04946842,  0.17833   , -0.17946234, -0.14044844,  0.14183456,\n",
+       "                       0.11151879,  0.00990173,  0.16708532,  0.00311802, -0.19296254,\n",
+       "                      -0.07895456, -0.05358064],\n",
+       "                     [-0.12174171, -0.10544308,  0.0556471 ,  0.14016442, -0.1203331 ,\n",
+       "                      -0.13760373,  0.0018499 ,  0.14478828, -0.09927409, -0.13758308,\n",
+       "                       0.10759134,  0.18229558],\n",
+       "                     [-0.04437685, -0.04374039, -0.04879271,  0.04663969, -0.03726794,\n",
+       "                       0.05309596, -0.06383848,  0.05368196, -0.05137848, -0.04447241,\n",
+       "                       0.04251692, -0.0448317 ],\n",
+       "                     [ 0.02396809,  0.00130846,  0.02194868, -0.01184556, -0.0030005 ,\n",
+       "                       0.03207239, -0.0103799 , -0.01964968,  0.02107432, -0.00932663,\n",
+       "                      -0.02965736, -0.00168315],\n",
+       "                     [-0.07083638,  0.04959667,  0.07980317,  0.07978249, -0.08462714,\n",
+       "                      -0.12336076,  0.10494138, -0.10706184,  0.11042266,  0.109396  ,\n",
+       "                      -0.09653424, -0.09866303],\n",
+       "                     [ 0.14528659, -0.156289  ,  0.18201059,  0.18373553, -0.16411057,\n",
+       "                      -0.18423638,  0.12427544,  0.1426011 , -0.09523565,  0.18038762,\n",
+       "                       0.02247501, -0.02538422],\n",
+       "                     [-0.08872726,  0.10119633, -0.10015967,  0.14358221,  0.1124408 ,\n",
+       "                      -0.14102799, -0.1146497 ,  0.1717651 , -0.08129647, -0.11724715,\n",
+       "                       0.10731492, -0.11043375],\n",
+       "                     [-0.2005231 ,  0.06185696,  0.07697932,  0.06992698, -0.08928881,\n",
+       "                      -0.13345496,  0.07226206,  0.12651955, -0.06262372, -0.13094625,\n",
+       "                       0.2037045 , -0.11037874],\n",
+       "                     [ 0.15709904,  0.09147388,  0.1737411 ,  0.11873791,  0.16998032,\n",
+       "                      -0.15156941,  0.19424284, -0.0556564 , -0.13813986, -0.14963529,\n",
+       "                      -0.07981193, -0.11151753],\n",
+       "                     [ 0.04470603,  0.12559803, -0.1948564 , -0.21314116,  0.02316979,\n",
+       "                      -0.06522746, -0.20179616, -0.28449327, -0.18319672,  0.22876535,\n",
+       "                      -0.00935488,  0.15519269],\n",
+       "                     [ 0.06430531, -0.03380948,  0.05436049, -0.00307257, -0.05237532,\n",
+       "                      -0.03553113, -0.0427621 ,  0.05176318,  0.02702462,  0.02999181,\n",
+       "                      -0.00480112, -0.042139  ],\n",
+       "                     [ 0.11094156, -0.02472229,  0.08882555, -0.02997557,  0.15591231,\n",
+       "                       0.10153078, -0.101006  ,  0.05814107, -0.11183677,  0.09545693,\n",
+       "                      -0.10829049,  0.04051792],\n",
+       "                     [-0.06574048, -0.03691431, -0.09033349, -0.0688434 ,  0.06487057,\n",
+       "                       0.07172374,  0.04248628,  0.1066426 ,  0.13915439,  0.03685255,\n",
+       "                      -0.07992487, -0.04460705],\n",
+       "                     [ 0.23797199,  0.19470014, -0.13750102, -0.06404502, -0.06553529,\n",
+       "                      -0.21534863,  0.04347736, -0.00221578, -0.13123493,  0.11218549,\n",
+       "                      -0.00937236, -0.15018238],\n",
+       "                     [ 0.08766682, -0.03309518, -0.04138753, -0.05194065, -0.11309406,\n",
+       "                      -0.07194766,  0.06354056,  0.08337919,  0.05211355, -0.05003445,\n",
+       "                      -0.08326187,  0.08595324]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._1/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-3.51440278e-03,  1.28068281e-02,  9.19135939e-03,\n",
+       "                       -3.05396481e-03, -6.16500911e-04,  9.72186588e-03,\n",
+       "                       -1.00571867e-02,  1.34833576e-03, -7.79370544e-03,\n",
+       "                        9.78772156e-03,  4.55377297e-03, -5.02773281e-03],\n",
+       "                      [-8.44756886e-03, -4.46955813e-03,  1.38254594e-02,\n",
+       "                       -6.54884754e-03, -9.89573449e-03, -6.60769758e-04,\n",
+       "                        7.96791725e-03,  2.92509166e-03, -1.31910515e-03,\n",
+       "                       -1.76212788e-02, -5.74108446e-03,  1.35668777e-02],\n",
+       "                      [ 7.59718334e-03, -8.26640171e-04, -4.97201836e-05,\n",
+       "                       -1.47614749e-02, -1.79277305e-02,  1.54404622e-02,\n",
+       "                       -4.48500132e-03, -9.16617166e-04,  9.43473913e-03,\n",
+       "                        3.36088677e-04, -1.03409169e-02,  6.60843856e-04],\n",
+       "                      [ 4.60142409e-03,  2.74095777e-03,  1.32161528e-02,\n",
+       "                       -1.12573681e-02, -8.54524784e-03, -7.35977059e-03,\n",
+       "                       -6.57367869e-04,  1.94121711e-02, -5.60901687e-03,\n",
+       "                        4.14388673e-03, -6.89180393e-04,  4.18218365e-03],\n",
+       "                      [ 1.26304673e-02, -4.86150337e-03,  1.53082320e-02,\n",
+       "                        5.87437907e-03, -3.57099832e-03, -1.91523856e-03,\n",
+       "                        4.05658269e-03, -1.05653126e-02,  1.40026063e-02,\n",
+       "                        8.70900322e-03, -3.38857848e-04,  2.11800099e-03],\n",
+       "                      [ 1.64542720e-02, -1.67683437e-02,  2.87021953e-03,\n",
+       "                        7.36033125e-03,  8.16178881e-03, -2.88854167e-03,\n",
+       "                        1.19893893e-03,  6.78116083e-03, -1.56503113e-03,\n",
+       "                        2.57799728e-03, -8.39453936e-03, -2.16512592e-03],\n",
+       "                      [-5.18427370e-03,  3.97628319e-04, -7.69194867e-03,\n",
+       "                       -7.96295889e-03,  6.46016421e-03, -2.63929949e-03,\n",
+       "                        7.07864203e-03,  1.10987788e-02, -4.16698726e-03,\n",
+       "                       -6.38887193e-03, -7.87641481e-03, -1.90893246e-03],\n",
+       "                      [ 3.05788917e-03, -7.70508591e-03,  3.13833193e-03,\n",
+       "                       -2.07884819e-03,  4.61988093e-04, -2.52465741e-03,\n",
+       "                       -1.88974775e-02,  1.05083664e-03, -1.42870443e-02,\n",
+       "                        6.78933924e-03, -1.02472138e-02, -2.58123642e-03],\n",
+       "                      [ 1.57928336e-02, -3.11652035e-03,  1.32909128e-02,\n",
+       "                       -5.56300860e-03, -1.19214160e-02, -1.35856699e-02,\n",
+       "                        6.65100873e-04, -3.69627029e-03,  1.49434535e-02,\n",
+       "                       -9.47162323e-03,  4.01089899e-03, -6.24648621e-03],\n",
+       "                      [-1.78829662e-03, -6.36964012e-03,  1.73489619e-02,\n",
+       "                       -1.69156715e-02, -5.49712451e-03, -8.08496494e-03,\n",
+       "                       -7.92223215e-03, -6.81683188e-03,  2.64624134e-03,\n",
+       "                        1.41025870e-03,  2.09145539e-04, -9.00311582e-03],\n",
+       "                      [-5.08373557e-03,  1.40454490e-02, -8.29873141e-03,\n",
+       "                       -2.17792904e-03, -5.96758304e-03, -8.12754687e-03,\n",
+       "                        8.44507851e-03,  5.37734432e-03, -7.22167548e-03,\n",
+       "                       -1.21807179e-03,  2.20488920e-03,  3.94411199e-03],\n",
+       "                      [ 1.02351140e-02,  3.16174538e-03,  2.71137198e-03,\n",
+       "                       -3.41729168e-03, -7.07039470e-03,  7.89679307e-03,\n",
+       "                        8.78156256e-03,  9.89588629e-03,  1.03757810e-02,\n",
+       "                        1.95973683e-02, -1.40913641e-02,  1.25801878e-03],\n",
+       "                      [-3.83818080e-03,  1.96839683e-02,  6.46740384e-03,\n",
+       "                       -1.42278466e-02,  6.28657825e-03, -2.51149316e-03,\n",
+       "                        1.66517552e-02, -1.11154914e-04, -1.50449043e-02,\n",
+       "                       -1.38718151e-02, -1.88158248e-02,  3.89999687e-03],\n",
+       "                      [-9.82810650e-03,  7.23840389e-03,  8.04117974e-03,\n",
+       "                       -4.56573907e-03, -8.66844319e-03, -2.96851899e-03,\n",
+       "                        9.36693104e-04, -1.41277921e-03, -1.32516930e-02,\n",
+       "                        1.27831437e-02, -5.95587771e-03, -1.78660899e-02],\n",
+       "                      [-5.91566134e-03,  6.21615397e-03, -4.15869895e-03,\n",
+       "                       -4.65120096e-03,  8.56087077e-03,  9.35591583e-04,\n",
+       "                       -9.51862801e-03, -2.55838083e-03, -9.28514730e-03,\n",
+       "                       -6.80608908e-03, -9.65297408e-03,  2.21744226e-03],\n",
+       "                      [ 5.31121297e-03,  2.21850746e-03, -6.31686440e-03,\n",
+       "                        2.72060931e-03,  4.40739421e-03,  6.43866928e-03,\n",
+       "                       -4.65685735e-03, -2.45278166e-03, -3.03451833e-03,\n",
+       "                        1.13026286e-02, -7.83874933e-03, -2.88648950e-03]],\n",
+       "              \n",
+       "                     [[-1.29255829e-02,  1.33011816e-02,  9.97423939e-03,\n",
+       "                        4.91580321e-03,  8.60906672e-03,  8.56189150e-03,\n",
+       "                        7.27360928e-03,  1.51449419e-03, -1.10791158e-02,\n",
+       "                        6.99038908e-04,  8.05190939e-04, -1.70294456e-02],\n",
+       "                      [ 7.62526179e-03, -6.65844604e-03, -5.96659724e-04,\n",
+       "                        1.38548086e-03,  4.48060548e-03, -9.30154510e-03,\n",
+       "                       -2.18432018e-04,  1.64746225e-03,  1.80208081e-04,\n",
+       "                        3.77233583e-03,  5.53707685e-03, -5.38419606e-03],\n",
+       "                      [-3.85529012e-03, -5.49498526e-03, -6.93165697e-03,\n",
+       "                       -8.89187120e-03,  1.25619834e-02, -8.95932782e-03,\n",
+       "                        9.45342798e-03, -6.92727917e-04,  8.13403074e-03,\n",
+       "                        1.46963941e-02, -4.15948313e-03, -7.41479965e-03],\n",
+       "                      [-1.90442596e-02, -7.77103286e-03, -3.67838028e-03,\n",
+       "                       -2.96433736e-03, -1.09969955e-02, -1.70248877e-02,\n",
+       "                        1.95688903e-02, -3.47897620e-03,  1.58165267e-03,\n",
+       "                       -8.68897513e-03, -1.78528065e-03, -1.71255190e-02],\n",
+       "                      [ 9.83172841e-03, -1.57035107e-03, -8.30506533e-03,\n",
+       "                        6.26034802e-03, -7.56533956e-03, -1.15565861e-04,\n",
+       "                        4.92884498e-03, -3.99625394e-03,  2.88844993e-03,\n",
+       "                       -6.28206879e-03,  8.64024647e-03, -2.29776371e-03],\n",
+       "                      [-1.20625710e-02,  1.18367467e-02,  1.06555307e-02,\n",
+       "                       -4.03438415e-03, -1.49667391e-03,  2.98733311e-03,\n",
+       "                       -8.68600793e-04, -3.71868000e-03, -4.97300271e-03,\n",
+       "                        4.00473922e-03, -8.08676530e-04, -1.54704892e-03],\n",
+       "                      [-3.83609696e-03,  6.88413670e-03,  2.54613836e-03,\n",
+       "                        5.47773950e-03, -1.43711697e-02,  1.31799662e-02,\n",
+       "                       -1.03495852e-03, -8.52769427e-03, -7.39515945e-03,\n",
+       "                       -6.77539827e-03,  2.11500144e-03,  1.95467239e-03],\n",
+       "                      [ 8.13793857e-03,  2.21302127e-03,  5.02331462e-03,\n",
+       "                        7.18485937e-03,  2.28810916e-03, -1.45320008e-02,\n",
+       "                       -3.96611728e-03,  3.68614378e-03, -1.72103811e-02,\n",
+       "                       -3.05140228e-03, -7.66682019e-03, -1.08588338e-02],\n",
+       "                      [-1.23977028e-02,  3.38270934e-03, -1.42664164e-02,\n",
+       "                        1.80415530e-02, -1.75846480e-02, -6.40456052e-03,\n",
+       "                       -2.37057498e-03, -1.47757838e-02,  7.56195700e-03,\n",
+       "                        9.45305359e-03,  7.78122060e-03,  1.02762086e-02],\n",
+       "                      [-3.82918934e-03,  1.60034071e-03, -7.77876470e-03,\n",
+       "                        1.33397728e-02,  1.18430490e-02,  4.98617810e-05,\n",
+       "                        1.30701559e-02,  9.02611576e-03,  4.07260330e-03,\n",
+       "                        2.39335559e-03,  2.40562297e-03, -3.25017539e-03],\n",
+       "                      [-8.06587748e-04,  1.26644485e-02,  8.72251578e-03,\n",
+       "                       -5.45040518e-03, -1.73145602e-03,  1.73480762e-03,\n",
+       "                       -5.13556274e-03,  1.80205062e-03,  6.46137225e-04,\n",
+       "                        6.70739915e-04,  5.22772875e-03, -3.31539568e-03],\n",
+       "                      [-1.07927714e-02, -7.33546494e-03, -4.29824786e-03,\n",
+       "                        1.02433376e-04, -5.57086337e-03, -1.02092093e-03,\n",
+       "                       -4.55509359e-03,  8.16038996e-03,  8.92126840e-03,\n",
+       "                        1.19936960e-02, -9.58633423e-03, -7.31446501e-03],\n",
+       "                      [ 2.58941157e-03,  1.61812436e-02,  1.25333546e-02,\n",
+       "                        1.31313223e-02,  1.45212887e-03,  2.96309148e-03,\n",
+       "                        1.70129482e-02, -3.18545871e-03,  9.50108469e-03,\n",
+       "                        1.12201851e-02,  1.86892953e-02, -1.09134382e-02],\n",
+       "                      [ 5.86659182e-03,  7.87080918e-03, -3.16623296e-03,\n",
+       "                        2.74886331e-03, -2.27011624e-03,  2.19338876e-03,\n",
+       "                        5.21903671e-03,  2.66190851e-03,  4.20619873e-03,\n",
+       "                       -5.73166180e-03, -6.65490422e-03, -1.68249682e-02],\n",
+       "                      [ 6.51477603e-03,  1.72201376e-02, -2.36054067e-03,\n",
+       "                       -1.12952981e-02,  4.46611550e-03,  9.25166160e-03,\n",
+       "                        9.00524389e-03,  8.10446404e-03,  1.75741222e-02,\n",
+       "                       -8.05154629e-03,  1.02305319e-02,  4.19014716e-04],\n",
+       "                      [ 1.16775753e-02, -1.46105085e-02, -3.06233508e-03,\n",
+       "                        6.35563117e-03, -1.24542378e-02, -3.08239786e-03,\n",
+       "                       -7.98272062e-03, -3.44542001e-04,  3.26864561e-03,\n",
+       "                       -1.17341252e-02,  1.21376979e-04,  1.80926919e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._1/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([0.9969315 , 1.0359559 , 1.0315224 , 0.9849864 , 1.015801  ,\n",
+       "                       1.005627  , 0.9874842 , 0.9969067 , 0.99558216, 1.0109723 ,\n",
+       "                       1.0234433 , 0.9991636 , 0.9988123 , 1.0318247 , 1.0211638 ,\n",
+       "                       1.0181438 , 1.0320866 , 1.0064743 , 1.0121417 , 0.9712312 ,\n",
+       "                       1.0209255 , 1.0460172 , 0.99270165, 1.0035357 , 0.99127185,\n",
+       "                       1.0275663 , 1.0406407 , 0.99490535, 1.001791  , 0.9999673 ,\n",
+       "                       1.0058154 , 0.99693173, 0.9894646 , 1.0103531 , 1.0356901 ,\n",
+       "                       1.0126542 , 1.0072185 , 1.0374453 , 0.9751607 , 0.9979825 ,\n",
+       "                       1.0254827 , 0.99742836, 1.0186007 , 1.0166698 , 1.0066754 ,\n",
+       "                       1.015171  , 1.01679   , 1.00437   , 1.0015148 , 0.99255323,\n",
+       "                       1.0045346 , 1.0716761 , 1.0488757 , 0.999746  , 1.0062506 ,\n",
+       "                       1.023134  , 0.98512036, 1.000971  , 1.0161233 , 1.0405521 ,\n",
+       "                       1.0237843 , 0.9783412 , 1.0045804 , 1.0090035 , 1.0159477 ,\n",
+       "                       1.0154358 , 0.96614903, 1.0346043 , 1.0275455 , 1.0052668 ,\n",
+       "                       1.0063258 , 0.99357855, 0.9910557 , 1.0226693 , 1.0048059 ,\n",
+       "                       1.0167528 , 0.99693376, 1.0340425 , 1.0295672 , 1.0218896 ,\n",
+       "                       1.0248531 , 0.99951583, 1.007127  , 0.9905791 , 1.0054238 ,\n",
+       "                       1.0253313 , 1.0236849 , 0.9722623 , 1.0092759 , 0.9838695 ,\n",
+       "                       1.0091549 , 1.01045   , 0.99850976, 1.003939  , 1.0145742 ,\n",
+       "                       1.0122032 , 1.0363253 , 1.0223064 , 1.0261148 , 1.013842  ,\n",
+       "                       0.97486174, 1.0200647 , 1.01195   , 0.97909224, 1.0034782 ,\n",
+       "                       0.97253907, 0.9704656 , 1.0108095 , 1.019121  , 1.0319759 ,\n",
+       "                       1.0244851 , 1.0042377 , 1.0418612 , 1.0193982 , 0.98685116,\n",
+       "                       1.0076736 , 1.0171342 , 1.0051624 , 1.0157962 , 1.002355  ,\n",
+       "                       1.0048748 , 0.9854516 , 1.0005583 , 0.9929194 , 1.0041345 ,\n",
+       "                       0.99567336, 0.97145903, 1.014572  , 0.99024326, 1.0049794 ,\n",
+       "                       1.005694  , 1.0293807 , 1.0348918 , 0.98891205, 1.0214592 ,\n",
+       "                       1.0343784 , 0.9974625 , 1.0336651 , 1.0159554 , 1.009517  ,\n",
+       "                       1.0213977 , 1.017891  , 1.0457859 , 0.9782976 , 0.99135834,\n",
+       "                       1.0085051 , 1.0210464 , 0.99015844, 1.062849  , 1.0274574 ,\n",
+       "                       0.99645656, 1.0038768 , 1.0021027 , 1.0151567 , 1.0023288 ,\n",
+       "                       1.0051237 , 1.0334389 , 0.97966415, 1.0279682 , 1.0157349 ,\n",
+       "                       0.99453247, 1.0490587 , 1.0010473 , 0.978003  , 1.0055332 ,\n",
+       "                       1.0280823 , 1.0189446 , 1.0045984 , 1.0096755 , 1.0110795 ,\n",
+       "                       1.010487  , 1.0333279 , 1.0420829 , 1.0059249 , 0.994315  ,\n",
+       "                       1.057765  , 1.0192627 , 1.0429702 , 1.053575  , 1.0210158 ,\n",
+       "                       1.0225272 , 1.027447  , 0.9746826 , 1.0187615 , 1.0175383 ,\n",
+       "                       1.0171152 , 1.0221983 , 1.0156734 , 1.0274174 , 1.0035317 ,\n",
+       "                       1.023852  , 0.9781956 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._1/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-6.85399259e-03,  3.49939987e-02,  1.21939313e-02,  7.00289663e-03,\n",
+       "                       -2.84625012e-02,  1.08894687e-02,  1.14317602e-02,  5.31119877e-04,\n",
+       "                       -1.20807504e-02, -2.53669452e-02, -1.38663230e-02, -2.45413911e-02,\n",
+       "                        3.12566315e-03, -3.34403589e-02, -2.49050651e-02, -3.51863094e-02,\n",
+       "                       -3.06198839e-02, -1.66457202e-02, -2.35300343e-02,  9.21525061e-03,\n",
+       "                       -5.47070839e-02,  2.90595908e-02, -1.14936028e-02,  2.27075554e-02,\n",
+       "                       -9.33005102e-03, -1.04101971e-02,  4.68960702e-02, -2.82690041e-02,\n",
+       "                       -8.87826364e-03,  2.93897931e-02,  1.09149814e-02,  3.39894090e-03,\n",
+       "                        3.80432904e-02, -1.57318916e-02,  1.27893016e-02,  2.51961667e-02,\n",
+       "                        1.02447895e-02, -2.86124647e-02, -2.84046819e-03, -2.03090701e-02,\n",
+       "                        2.78504677e-02,  2.64279023e-02,  6.48994697e-03,  1.24164717e-02,\n",
+       "                        3.56704369e-02,  1.63176341e-03,  5.34731708e-03,  3.32465097e-02,\n",
+       "                       -1.84127502e-02,  7.83201400e-03, -1.57840957e-03,  6.27451017e-02,\n",
+       "                       -4.62098606e-02, -1.34509420e-02,  2.52033193e-02, -5.26064336e-02,\n",
+       "                       -3.50736752e-02, -2.23494507e-02,  1.18345963e-02,  4.26737703e-02,\n",
+       "                       -3.53784598e-02, -2.34259595e-03,  1.45399068e-02, -8.22275598e-03,\n",
+       "                        2.36013755e-02,  2.16632951e-02,  2.96655321e-03, -1.81439761e-02,\n",
+       "                       -3.52690704e-02,  2.45213807e-02, -2.36667562e-02,  1.55049330e-02,\n",
+       "                        3.03323995e-02,  1.42984604e-02,  1.54546760e-02,  3.63423787e-02,\n",
+       "                        1.28306113e-02,  3.05887386e-02,  3.71386148e-02, -3.07099824e-03,\n",
+       "                       -1.55997351e-02, -2.06704624e-02, -3.44661251e-03,  1.09177697e-02,\n",
+       "                       -1.73887815e-02,  3.64674553e-02, -2.63101477e-02,  4.08331072e-03,\n",
+       "                       -6.52079657e-03,  2.11077482e-02, -2.43641455e-02, -9.33902524e-03,\n",
+       "                       -2.14265306e-02,  2.64686197e-02,  1.49264745e-02,  7.82742165e-03,\n",
+       "                        6.50000235e-04, -4.15059663e-02,  1.89712290e-02, -1.90072544e-02,\n",
+       "                        1.46152293e-02,  4.48593870e-02, -1.28153572e-02,  3.75432638e-03,\n",
+       "                        1.98702887e-02, -2.83633708e-04,  8.32533929e-03,  9.34107229e-05,\n",
+       "                       -1.90886576e-03, -9.71705187e-03,  1.61674749e-02, -1.85295125e-03,\n",
+       "                        7.14225508e-03, -2.73624919e-02, -2.55387509e-03, -1.12724118e-03,\n",
+       "                        1.85906123e-02, -2.97149625e-02,  4.02317978e-02, -1.97510310e-02,\n",
+       "                        1.78207867e-02,  2.03406569e-02,  2.69312393e-02,  1.89924911e-02,\n",
+       "                        3.84589611e-03, -5.42263826e-03,  3.81167559e-03,  2.77643744e-02,\n",
+       "                        1.56566370e-02,  3.10532358e-02, -6.96316315e-03, -2.76779886e-02,\n",
+       "                        1.15464441e-03,  4.57731134e-04, -1.05021391e-02, -7.42463116e-03,\n",
+       "                       -3.92725272e-03, -4.03682962e-02, -3.32555297e-04, -1.48589090e-02,\n",
+       "                        2.83816513e-02, -5.50642144e-03,  3.29398774e-02, -6.12563780e-03,\n",
+       "                        4.73114895e-04,  1.87995285e-02,  4.34074178e-02,  7.52707245e-03,\n",
+       "                       -4.21776809e-02, -1.98691562e-02,  2.23468821e-02, -2.30735913e-02,\n",
+       "                       -3.02154068e-02, -1.44386357e-02, -2.66777873e-02, -2.04052161e-02,\n",
+       "                       -4.06471565e-02, -1.50648935e-03,  6.54783053e-03, -5.13115618e-03,\n",
+       "                        1.93733722e-02,  2.58082990e-02, -3.45452428e-02, -2.06032339e-02,\n",
+       "                        1.86892655e-02, -4.15844470e-02,  7.87161291e-03, -1.31361950e-02,\n",
+       "                        3.92404161e-02,  3.18503343e-02,  2.69362354e-03,  1.83110908e-02,\n",
+       "                       -2.87646055e-02, -3.88961025e-02, -1.27332853e-02,  1.51178809e-02,\n",
+       "                       -3.98628181e-03, -2.47202143e-02, -1.49840591e-02, -2.09513959e-02,\n",
+       "                        9.46386252e-03,  3.05391778e-03,  2.81525757e-02,  3.17124762e-02,\n",
+       "                       -1.79900415e-02, -5.57004847e-03, -2.40996070e-02, -4.68908390e-03,\n",
+       "                       -3.55240591e-02, -2.24711336e-02,  3.18121724e-02,  1.49385640e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.00378348,  0.0204091 ,  0.01135249, ..., -0.01550941,\n",
+       "                         0.00612383, -0.00509007],\n",
+       "                       [ 0.02067552,  0.01613462, -0.02470975, ...,  0.00266561,\n",
+       "                         0.0119758 ,  0.00032748],\n",
+       "                       [-0.00194279, -0.02958387,  0.00653261, ...,  0.00088051,\n",
+       "                        -0.01011066,  0.00685293],\n",
+       "                       ...,\n",
+       "                       [ 0.02418215, -0.00869673,  0.05250982, ..., -0.00619787,\n",
+       "                        -0.00458857, -0.00833396],\n",
+       "                       [ 0.02385004, -0.04703965,  0.05451006, ..., -0.00348573,\n",
+       "                        -0.02210503, -0.01034559],\n",
+       "                       [-0.02042757, -0.02202994,  0.01550441, ...,  0.00671552,\n",
+       "                         0.02117145, -0.0054143 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([ 1.21712941e-03,  1.11744599e-03, -1.39847826e-02, -4.46790047e-02,\n",
+       "                       -1.32631529e-02, -2.92864088e-02, -7.41573889e-03,  6.73092669e-03,\n",
+       "                        1.53066171e-03, -5.23377862e-03, -1.14760995e-02, -1.66477170e-02,\n",
+       "                       -4.09049494e-03, -1.08475713e-02, -2.35699415e-02,  3.27810459e-03,\n",
+       "                        1.12106688e-02, -1.67731475e-02,  3.39100137e-03,  4.08213399e-03,\n",
+       "                       -1.64552964e-02, -3.49954255e-02,  1.14198693e-03, -3.04259043e-02,\n",
+       "                       -4.51649614e-02,  9.18964390e-03, -6.32018456e-03,  1.50255440e-02,\n",
+       "                       -1.56057393e-02, -3.77505533e-02,  1.02112731e-02,  1.20568899e-02,\n",
+       "                        9.48533823e-04,  2.23602150e-02, -4.44539794e-04, -1.57161858e-02,\n",
+       "                        5.90274716e-03, -2.07363591e-02,  1.08804699e-04, -2.73037283e-03,\n",
+       "                       -5.21600954e-02, -2.77979579e-02,  3.28371464e-03, -5.89027768e-03,\n",
+       "                        1.54655073e-02,  9.94858565e-04, -8.03477783e-03, -5.80484048e-02,\n",
+       "                       -9.35775600e-03, -1.94576681e-02, -4.11564596e-02, -5.90110663e-03,\n",
+       "                        1.36351474e-02,  1.37825571e-02, -1.25644533e-02, -1.41049242e-02,\n",
+       "                        5.44565497e-03, -7.13166548e-03, -1.03337190e-03, -1.57395061e-02,\n",
+       "                        1.25784706e-02, -2.08498891e-02,  1.63245909e-02, -9.50962398e-03,\n",
+       "                        9.10767261e-03,  5.58687747e-03,  4.33255592e-03, -4.32211161e-03,\n",
+       "                        2.85559148e-03, -4.84286919e-02, -6.73415198e-04, -2.80464184e-03,\n",
+       "                        9.54244868e-04, -2.66200341e-02, -3.81675758e-03, -7.84792192e-03,\n",
+       "                       -1.45485466e-02,  2.05056788e-03,  1.86129361e-02, -6.48720283e-03,\n",
+       "                       -1.47726778e-02,  1.76946633e-02,  1.08199576e-02, -2.14629225e-03,\n",
+       "                       -6.79762010e-03, -4.92806686e-03, -3.61140966e-02, -3.56992008e-04,\n",
+       "                       -1.06048677e-02, -2.29637269e-02,  8.50004330e-03, -1.94537397e-02,\n",
+       "                        1.94888599e-02, -6.98236655e-03,  1.07396282e-02, -3.05227078e-02,\n",
+       "                       -2.00488232e-02,  7.70343048e-03,  3.34120169e-02, -8.79255310e-03,\n",
+       "                       -1.55596714e-02, -7.34469807e-03, -6.77908584e-03, -2.96232570e-02,\n",
+       "                       -1.22853303e-02, -1.17631704e-02,  3.26141194e-02,  1.06761511e-02,\n",
+       "                        2.18307804e-02,  2.30603595e-03, -5.68503002e-03,  6.37491373e-03,\n",
+       "                        9.27514117e-03,  1.26113594e-02, -1.67415049e-02,  9.93379671e-03,\n",
+       "                        6.58909651e-03, -3.54674971e-03, -2.77315476e-03, -4.64916788e-03,\n",
+       "                       -3.05924797e-03, -2.19699666e-02, -3.74519676e-02, -4.18436900e-02,\n",
+       "                       -1.65367890e-02, -1.44111924e-02,  8.43369053e-04, -1.62784513e-02,\n",
+       "                        2.01944634e-02, -7.64198182e-03, -3.98157444e-03, -3.42435646e-03,\n",
+       "                        3.35985981e-03,  1.19394138e-02, -9.76176281e-03,  4.34873346e-03,\n",
+       "                       -3.60846147e-02,  2.08347850e-02, -2.55428664e-02,  5.29307686e-03,\n",
+       "                        7.71038141e-03, -8.88793916e-03, -2.54604965e-02,  2.38521453e-02,\n",
+       "                       -2.18547843e-02,  3.36336158e-03, -2.14393474e-02, -7.10055977e-03,\n",
+       "                       -1.73013825e-02,  2.24922579e-02, -1.66900642e-02,  1.66960284e-02,\n",
+       "                        6.52999710e-03,  7.15585146e-03, -1.62478574e-02, -1.41648820e-03,\n",
+       "                        1.00488234e-02,  3.87262274e-03,  5.99228544e-03,  1.33825680e-02,\n",
+       "                        2.53655855e-03, -3.62779177e-03, -2.84535019e-03, -1.70501228e-02,\n",
+       "                        1.55098876e-02, -1.77575126e-02, -2.02389602e-02, -2.13988982e-02,\n",
+       "                       -1.37847895e-03,  1.25355367e-02,  8.04237928e-03,  6.47399691e-04,\n",
+       "                       -2.86702476e-02, -3.05145793e-03,  2.28235461e-02,  1.65228378e-02,\n",
+       "                       -1.78421922e-02, -8.96514859e-03,  1.25002535e-03, -8.40720348e-03,\n",
+       "                        1.28656700e-02, -3.27507257e-02, -2.82659996e-02,  1.39765022e-02,\n",
+       "                       -3.36523317e-02, -4.56795581e-02, -5.74486982e-03,  3.83558474e-03,\n",
+       "                        1.67551469e-02, -1.05215646e-02, -5.34546515e-03,  3.31974728e-03,\n",
+       "                       -1.74205303e-02, -1.74690187e-02, -6.83817489e-05, -1.24099236e-02,\n",
+       "                        5.46208676e-03,  1.31493127e-02, -7.69328931e-03,  9.23285075e-03,\n",
+       "                       -9.05792508e-03, -1.34851644e-02,  1.66751328e-03, -1.80504378e-03,\n",
+       "                        7.81689212e-03,  1.51372924e-02,  1.65556483e-02, -3.96846011e-02,\n",
+       "                       -1.06191784e-02, -1.21018719e-02, -3.75225544e-02, -4.54310281e-03,\n",
+       "                       -2.06056377e-03, -4.42739716e-03, -2.42362749e-02, -1.16142165e-02,\n",
+       "                       -1.25911944e-02,  2.55287276e-03, -8.17842083e-04, -2.07597595e-02,\n",
+       "                        3.08572371e-02, -4.24903259e-03,  1.95597857e-02,  1.33561976e-02,\n",
+       "                       -2.19328981e-02,  3.21771321e-03, -2.02778075e-02, -3.51373223e-03,\n",
+       "                       -3.29087935e-02,  3.64454114e-04,  1.57634746e-02, -9.44056921e-03,\n",
+       "                       -2.15312708e-02, -1.89597011e-02, -7.62946263e-04, -4.13846644e-03,\n",
+       "                        2.73370510e-03, -4.90105106e-03,  1.98669620e-02,  1.67902987e-02,\n",
+       "                        8.66163895e-03, -1.91626567e-02,  4.20852890e-03,  1.04909698e-02,\n",
+       "                       -9.93329939e-03,  6.97246706e-03, -1.75434034e-02, -1.98909435e-02,\n",
+       "                        6.95742760e-03, -2.06778403e-02, -1.35637140e-02,  2.72055157e-02,\n",
+       "                        1.02242995e-02,  1.31756882e-04,  5.80279715e-03,  2.92883627e-03,\n",
+       "                       -1.56155406e-02, -5.42097492e-03,  9.83800739e-03, -1.54213645e-02,\n",
+       "                        1.14859343e-02,  8.67995154e-03,  4.96590696e-03,  9.76129621e-03,\n",
+       "                       -3.31700221e-02,  8.64369981e-03, -1.86243858e-02, -7.16004241e-03,\n",
+       "                       -1.37374476e-02,  1.20013952e-02, -1.91051152e-03, -6.08156435e-03,\n",
+       "                       -1.75130498e-02, -5.35639301e-02,  1.58307776e-02, -1.81044228e-02,\n",
+       "                        2.49834335e-03,  4.17423155e-03, -2.53396686e-02,  1.46856969e-02,\n",
+       "                       -2.22624149e-02,  8.67950264e-03, -2.30857432e-02,  1.77531019e-02,\n",
+       "                        1.62986182e-02, -1.85275618e-02, -3.44653381e-03,  2.50066677e-03,\n",
+       "                       -4.63302433e-03,  8.05620942e-03, -1.76385753e-02,  2.49336511e-02,\n",
+       "                       -1.64703224e-02,  2.60244764e-04, -7.67652225e-03,  4.86556021e-03,\n",
+       "                       -4.83469814e-02, -1.27337119e-02, -1.92696191e-02, -2.72822492e-02,\n",
+       "                        5.47242071e-03, -1.16454146e-03,  1.35646807e-02,  1.00370515e-02,\n",
+       "                        9.59197991e-03, -3.18160839e-03, -2.19840482e-02, -2.08951300e-03,\n",
+       "                       -7.41670933e-03, -1.38713727e-02, -3.06752212e-02, -2.93379258e-02,\n",
+       "                       -1.01506848e-04, -1.31825907e-02,  8.28257762e-03,  2.29409393e-02,\n",
+       "                        1.04126334e-03,  1.24420030e-02,  2.03921460e-03,  3.19668208e-03,\n",
+       "                        1.63461957e-02, -2.01644730e-02,  1.15988161e-02,  1.46984840e-02,\n",
+       "                       -1.44577175e-02, -2.31328122e-02, -1.28451874e-02,  8.55914876e-03,\n",
+       "                        4.48380248e-04, -4.31475863e-02,  3.74619290e-03, -4.84132720e-03,\n",
+       "                        3.09969764e-03,  2.40912568e-02, -1.70390829e-02,  1.16004581e-02,\n",
+       "                        1.96048785e-02, -8.40850361e-03, -1.36118289e-02, -4.04037535e-03,\n",
+       "                       -8.99504311e-03,  1.45752728e-03, -1.71515364e-02, -2.67615989e-02,\n",
+       "                        2.85765361e-02, -2.18445025e-02,  2.68292148e-02,  1.94653422e-02,\n",
+       "                       -1.48401968e-02, -1.09210033e-02, -3.67749594e-02,  2.95452308e-03,\n",
+       "                        1.65821351e-02,  1.22377174e-02, -1.08304415e-02, -3.87950316e-02,\n",
+       "                        1.57719143e-02,  9.33526363e-03, -1.64565141e-03, -1.89905555e-03,\n",
+       "                        5.45689790e-03,  9.76760779e-03,  1.12611400e-02, -4.11848910e-03,\n",
+       "                        5.89184044e-03, -1.99133698e-02, -1.23440409e-02, -5.60856657e-03,\n",
+       "                        6.69311732e-04, -1.27601391e-02,  1.02170166e-02, -1.72962993e-02,\n",
+       "                       -6.78496994e-03, -1.96674056e-02,  1.11403549e-02, -3.00172754e-02,\n",
+       "                        1.86359212e-02,  1.79452356e-02, -2.69969227e-03,  7.34739378e-03,\n",
+       "                        2.32792739e-03, -1.85412634e-02,  1.82294555e-03, -2.54414720e-03,\n",
+       "                       -1.57666784e-02,  1.92940161e-02, -1.07259555e-02,  1.19666588e-02,\n",
+       "                       -2.25211051e-03,  1.81680697e-03, -3.47250630e-03, -9.40402783e-03,\n",
+       "                       -7.67046772e-03,  1.07285883e-02, -3.94243794e-03,  8.33209325e-03,\n",
+       "                        1.47054866e-02,  3.48920003e-02, -1.14637204e-02, -1.54867256e-03,\n",
+       "                       -4.01444919e-03,  2.25149244e-02, -9.72189568e-03,  1.13570466e-04,\n",
+       "                        2.40310710e-02, -2.67354939e-02, -5.41334227e-03,  2.85329465e-02,\n",
+       "                       -5.52699494e-04, -8.31121579e-04,  9.93520720e-04, -1.19860629e-02,\n",
+       "                       -3.63373831e-02,  2.90836431e-02,  1.69258043e-02, -1.38433175e-02,\n",
+       "                       -1.18911071e-02,  1.70295115e-03,  1.74647104e-03,  2.80275159e-02,\n",
+       "                       -4.80082491e-03, -2.78006736e-02,  7.48452544e-03,  4.70855914e-04,\n",
+       "                        1.40010659e-03, -4.33022331e-04, -6.01151987e-05,  3.57630779e-03,\n",
+       "                        2.56394409e-03,  2.71348306e-03, -2.88691302e-03, -2.72004027e-02,\n",
+       "                       -9.17448010e-03,  3.83244967e-03, -3.38208303e-02, -3.44089651e-03,\n",
+       "                       -7.52198882e-03,  4.73338878e-06, -1.09319473e-02, -2.54172180e-03,\n",
+       "                       -1.33185787e-03,  1.17676770e-02, -3.67837702e-03,  5.30108344e-03,\n",
+       "                        1.81533769e-02, -5.34134265e-03, -4.28129733e-02, -7.23955745e-04,\n",
+       "                        6.41434162e-05, -2.29048077e-02, -1.75935719e-02,  1.55059323e-02,\n",
+       "                        2.45801383e-03, -6.09927520e-05,  1.55003862e-02, -4.82059643e-02,\n",
+       "                       -6.13219046e-04, -1.29873790e-02, -1.17985131e-02, -1.36594269e-02,\n",
+       "                       -3.64093967e-02,  6.50251424e-03,  9.31435172e-03, -4.21814807e-03,\n",
+       "                       -6.24975096e-03, -2.04446837e-02, -6.86652865e-03, -2.78066806e-02,\n",
+       "                        8.10640771e-03, -9.03519150e-03,  8.32730252e-03, -8.23402777e-03,\n",
+       "                       -1.77198574e-02, -1.49527630e-02,  1.89031772e-02,  1.89668722e-02,\n",
+       "                       -2.32934374e-02, -2.54948549e-02,  5.30088274e-03,  7.84592266e-05,\n",
+       "                       -1.24219712e-02,  2.99021974e-02,  1.65144668e-03,  3.23658949e-03,\n",
+       "                        3.46182380e-03, -5.54047665e-03,  1.73629876e-02, -7.28723034e-03,\n",
+       "                       -8.10160127e-04, -3.61903966e-03, -3.78185362e-02, -1.07352436e-02,\n",
+       "                       -2.66686138e-02, -1.68437045e-02, -2.88786180e-02, -2.56704912e-02,\n",
+       "                       -9.99005884e-03, -2.59445347e-02,  3.15692485e-03,  1.21186450e-02,\n",
+       "                        7.68181751e-04,  1.01973154e-02, -2.93356571e-02,  2.74304189e-02,\n",
+       "                       -5.11944247e-03, -2.34087408e-02, -3.31219332e-03,  2.49027386e-02,\n",
+       "                       -2.99181864e-02, -4.30644071e-03, -4.84546721e-02,  1.37732318e-02,\n",
+       "                       -1.08511113e-02,  9.09818523e-03, -5.97642958e-02, -2.40001362e-03,\n",
+       "                       -2.44693402e-02, -2.61431150e-02, -5.63228130e-02, -5.69147766e-02,\n",
+       "                       -1.34355966e-02,  1.08059049e-02, -2.51438115e-02,  2.43897345e-02,\n",
+       "                        2.00368688e-02, -3.21862362e-02, -7.11673358e-03, -2.02482264e-03,\n",
+       "                        1.69970561e-02,  1.04994839e-02,  2.40762550e-02,  1.22807072e-02,\n",
+       "                        8.96592438e-03, -1.48127731e-02, -4.73734341e-04, -2.52799341e-03,\n",
+       "                        4.95032547e-03,  8.90917610e-03, -2.14294400e-02, -1.38719659e-02,\n",
+       "                       -7.85260927e-03, -2.72178762e-02, -7.67520443e-03,  7.45872548e-03,\n",
+       "                       -2.06694868e-03,  1.26448721e-02, -1.38665866e-02,  1.62336770e-02,\n",
+       "                       -1.89894938e-03,  2.43713753e-03, -3.50183845e-02, -2.78931893e-02,\n",
+       "                        8.56034085e-03, -2.59791454e-03, -1.73034631e-02, -2.86361184e-02,\n",
+       "                       -5.27288672e-03, -4.77060303e-03, -1.94337231e-03, -1.25429239e-02,\n",
+       "                        2.13629450e-03,  1.28392419e-02,  1.39512727e-02,  8.32761638e-03,\n",
+       "                        2.00579725e-02, -2.15874356e-03, -1.66641194e-02, -8.43333139e-04,\n",
+       "                       -2.06374768e-02, -4.71002935e-03, -3.87405567e-02,  4.49309405e-03,\n",
+       "                       -8.73806700e-03, -6.21388026e-04,  4.24497062e-03, -8.02812446e-03,\n",
+       "                       -1.94833558e-02,  1.42147695e-03, -1.47265205e-02, -1.60043798e-02,\n",
+       "                        1.58656407e-02, -2.53966227e-02, -8.12013913e-03,  1.92887418e-03,\n",
+       "                        1.36667909e-02, -5.50148962e-03,  3.92105430e-03, -1.55275753e-02,\n",
+       "                        1.08085116e-02,  5.63313160e-03,  6.38731057e-03, -1.17396507e-02,\n",
+       "                        3.83905647e-03,  2.81073805e-02, -1.32573741e-02, -1.12737311e-04,\n",
+       "                       -1.13992719e-02, -4.50117923e-02,  6.19430421e-03,  6.57175388e-03,\n",
+       "                        6.27242122e-03, -3.82218370e-03, -3.24477218e-02, -4.73353453e-03,\n",
+       "                        1.49306348e-02,  8.50765780e-03, -1.80551375e-03,  1.08695142e-02,\n",
+       "                       -1.91586670e-02, -8.83677322e-03, -2.01941133e-02, -2.03755405e-02,\n",
+       "                       -3.80617054e-03, -2.54426431e-02,  6.67224522e-05, -2.47236225e-04,\n",
+       "                        4.69957432e-03,  1.04258144e-02,  2.79125143e-02,  8.67276452e-03,\n",
+       "                        2.08652043e-03,  3.94323579e-04, -2.29147403e-03,  3.11773154e-03,\n",
+       "                       -8.63924809e-03, -4.87285014e-03,  1.04771433e-02,  8.81836843e-03,\n",
+       "                       -2.02935953e-02, -3.66574293e-03, -1.72846783e-02, -3.04471068e-02,\n",
+       "                        1.12433557e-03, -1.83333475e-02, -1.29820651e-03,  1.62148353e-04,\n",
+       "                       -3.05455755e-02,  8.47839937e-03, -2.97118854e-02,  2.02719774e-02,\n",
+       "                        3.47412797e-03, -2.69159861e-02, -5.54035010e-04, -2.95973988e-03,\n",
+       "                        4.54130163e-03, -5.08381939e-03, -2.05832124e-02,  3.78382839e-02,\n",
+       "                        2.99660265e-02, -5.05679334e-03, -6.64304430e-03, -1.09957159e-02,\n",
+       "                        1.51456976e-02,  8.22816882e-03,  1.49936322e-02,  1.32917576e-02,\n",
+       "                        1.46918762e-02,  1.61370391e-03,  2.04168055e-02,  9.69626475e-03,\n",
+       "                        4.14515613e-03,  2.26347093e-02,  1.49708344e-02,  1.28237531e-02,\n",
+       "                       -7.43865082e-03, -2.93543935e-02, -6.53200522e-02, -5.42526599e-03,\n",
+       "                        8.26254301e-03,  1.43309776e-03,  1.58000141e-02, -2.23250892e-02,\n",
+       "                        6.71493355e-03, -7.37267965e-03,  2.66001414e-04, -9.52360686e-03,\n",
+       "                       -6.70215394e-03,  7.12418137e-03,  1.52985044e-02, -3.28066535e-02,\n",
+       "                       -3.59565169e-02, -3.52373607e-02, -9.85178910e-03, -7.71370716e-03,\n",
+       "                        7.25477934e-03, -3.71771082e-02, -1.37529597e-02, -4.51815017e-02,\n",
+       "                       -2.23332271e-03, -1.54914130e-02,  2.34068185e-02, -1.42283523e-02,\n",
+       "                        5.88655705e-03, -1.76403560e-02,  2.16605188e-03,  5.97196119e-03,\n",
+       "                       -1.72784999e-02,  5.36067924e-03, -3.19605507e-02,  4.08004504e-03,\n",
+       "                       -4.14101686e-03, -1.85644794e-02,  2.51514055e-02, -1.67821962e-02,\n",
+       "                        2.56560054e-02, -3.78645360e-02, -1.02061154e-02, -3.53764705e-02,\n",
+       "                       -1.55158835e-02, -4.76077432e-03, -1.36364102e-02, -3.05698207e-03,\n",
+       "                        4.68083797e-03, -1.94948856e-02,  2.15629041e-02,  3.09187896e-03,\n",
+       "                       -1.74710117e-02, -4.33999151e-02, -2.63247490e-02,  2.02457421e-02,\n",
+       "                        1.12916930e-02, -3.16064805e-02,  1.14372261e-02, -1.09964097e-02,\n",
+       "                        1.48417773e-02, -7.04414956e-03, -4.30010892e-02,  3.89331649e-03,\n",
+       "                        2.49399785e-02, -1.83765758e-02, -8.07058811e-03, -2.50721220e-02,\n",
+       "                       -9.01548192e-04,  1.44568430e-02,  1.21710286e-03,  5.64520387e-03,\n",
+       "                       -2.09744815e-02,  5.01332525e-03, -5.36186248e-03,  9.06061789e-04,\n",
+       "                        6.38368493e-03, -1.53965401e-02,  9.75043606e-03,  4.15975507e-03,\n",
+       "                        7.27052800e-03, -1.92049742e-02,  3.18862149e-03,  1.27868410e-02,\n",
+       "                       -1.57332923e-02, -2.91440031e-03, -9.26277880e-03,  1.98450387e-02,\n",
+       "                       -2.40688492e-02,  6.82184240e-03,  1.29345879e-02, -4.33823327e-03,\n",
+       "                       -2.22863276e-02,  2.80247885e-03,  1.14938861e-03, -1.31881731e-02,\n",
+       "                       -5.79492599e-02, -1.34389708e-02, -3.96496430e-02, -6.93540508e-03,\n",
+       "                        2.13500988e-02,  7.80632207e-03, -6.45534089e-03, -1.40285550e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._1/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[-0.00052601, -0.00091733, -0.01139702, ...,  0.00473077,\n",
+       "                        -0.00057246, -0.00768256],\n",
+       "                       [ 0.00977903, -0.00192228, -0.01191035, ...,  0.00261494,\n",
+       "                        -0.01204226,  0.00491333],\n",
+       "                       [-0.01176421, -0.03240357, -0.02388848, ..., -0.01289275,\n",
+       "                         0.05155848,  0.02732125],\n",
+       "                       ...,\n",
+       "                       [ 0.00684952, -0.03641722, -0.01548092, ...,  0.02650181,\n",
+       "                         0.00601252,  0.01533274],\n",
+       "                       [ 0.00579466, -0.0222997 ,  0.01490036, ..., -0.01592839,\n",
+       "                        -0.00955954, -0.02380987],\n",
+       "                       [-0.00343813, -0.00589791, -0.01730914, ...,  0.00521022,\n",
+       "                        -0.00768803, -0.0075852 ]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._1/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-1.28697157e-02,  1.56626326e-03,  2.25128457e-02,  1.23283323e-02,\n",
+       "                       -6.11981750e-03,  3.96887632e-03,  3.51140695e-03,  3.42887337e-03,\n",
+       "                       -1.16077121e-02, -2.31974386e-02, -6.31319685e-03, -1.61810145e-02,\n",
+       "                        7.03598955e-04, -3.46243158e-02, -6.75723050e-03, -3.32775265e-02,\n",
+       "                       -3.23656090e-02, -2.12191250e-02, -2.66066119e-02, -1.05098393e-02,\n",
+       "                       -2.23392900e-02,  4.56696609e-03, -1.92382205e-02,  2.19231639e-02,\n",
+       "                       -4.03383654e-03, -9.16029618e-04,  2.79391725e-02, -1.40444925e-02,\n",
+       "                        9.45466105e-03,  2.78000422e-02,  2.44674156e-03, -1.10390398e-03,\n",
+       "                        3.16991471e-02, -1.06008239e-02,  1.30848903e-02,  2.52418164e-02,\n",
+       "                        1.40522709e-02, -2.37777587e-02, -3.68189067e-03,  4.97014029e-04,\n",
+       "                        1.74174104e-02,  1.04839979e-02, -2.69745057e-03,  4.99991793e-03,\n",
+       "                        3.34201194e-02, -5.77967055e-03,  5.42377122e-03,  1.50190340e-02,\n",
+       "                       -2.74546016e-02,  7.14053120e-03, -3.73244775e-03,  3.75339612e-02,\n",
+       "                       -3.71782817e-02, -5.57640428e-03,  2.10267361e-02, -3.58375274e-02,\n",
+       "                       -3.72432754e-03, -1.87591556e-02,  1.12272957e-02,  3.31541970e-02,\n",
+       "                       -2.46070866e-02, -4.36177012e-03,  1.32657085e-02, -1.26082338e-02,\n",
+       "                        1.87053643e-02,  1.70804709e-02,  1.33639071e-02, -1.90669075e-02,\n",
+       "                       -1.29393823e-02,  1.90141499e-02, -1.11113507e-02,  8.58172216e-03,\n",
+       "                        2.49483865e-02,  1.24078095e-02,  1.06699467e-02,  1.13949152e-02,\n",
+       "                        1.65756866e-02,  2.97233220e-02,  2.61469726e-02, -1.11253718e-02,\n",
+       "                       -2.03499384e-02, -2.30461136e-02,  1.52888778e-03,  3.20105348e-03,\n",
+       "                       -9.56892036e-03,  1.25000197e-02, -1.73106156e-02,  1.35570867e-02,\n",
+       "                        5.73282829e-04,  2.49358434e-02, -1.41815478e-02,  3.60490708e-03,\n",
+       "                       -5.09327091e-03,  7.10161589e-03,  1.12671433e-02,  2.82256369e-05,\n",
+       "                       -1.35730754e-03, -3.16210911e-02,  1.23561407e-02, -1.58919953e-02,\n",
+       "                        6.86849281e-03,  1.74242146e-02, -1.18547864e-02,  2.29167519e-03,\n",
+       "                        1.86833702e-02, -3.04882269e-04,  3.55654978e-03,  1.38436528e-02,\n",
+       "                       -7.21841678e-03,  4.40225657e-03,  8.65148474e-03,  5.37445256e-03,\n",
+       "                        1.36929452e-02, -8.82796571e-03,  2.56787357e-03, -1.14671309e-02,\n",
+       "                        2.40873136e-02, -2.66355798e-02,  6.69640210e-03, -1.01693552e-02,\n",
+       "                        1.75453555e-02,  7.63980485e-03,  1.95996501e-02, -5.47533808e-03,\n",
+       "                        1.52602233e-02, -9.54087451e-03,  2.50047026e-03,  1.87017508e-02,\n",
+       "                        1.49874371e-02,  2.26895958e-02, -1.91373024e-02, -2.82493141e-02,\n",
+       "                       -2.49937293e-03,  7.17947073e-03, -1.85740720e-02,  1.69082712e-02,\n",
+       "                       -7.14652846e-03, -2.10556984e-02,  1.28920283e-02, -1.23076010e-02,\n",
+       "                        2.80572921e-02, -5.43307746e-03,  1.29268924e-02,  2.33644992e-03,\n",
+       "                       -1.01666187e-03,  4.56599984e-03,  3.91974896e-02,  1.07824057e-02,\n",
+       "                       -2.94113643e-02, -2.30929591e-02,  2.04315297e-02, -1.43474080e-02,\n",
+       "                       -1.33732483e-02, -5.68833202e-03, -1.43602882e-02, -1.85296349e-02,\n",
+       "                       -2.66867913e-02,  1.13412656e-03, -5.38206520e-03,  6.23613782e-03,\n",
+       "                        1.70935206e-02,  1.38554061e-02, -2.49322355e-02, -1.04984548e-02,\n",
+       "                        2.00184267e-02, -2.85697710e-02,  7.44458474e-03, -1.23284226e-02,\n",
+       "                        1.01375710e-02,  3.18448953e-02, -2.56668800e-03,  2.41091419e-02,\n",
+       "                       -2.23143548e-02, -3.50988880e-02, -1.33587681e-02,  1.70347169e-02,\n",
+       "                        3.36722308e-03, -2.06941124e-02, -7.01428344e-03, -1.55244842e-02,\n",
+       "                       -7.21133361e-03, -1.65471155e-03,  1.15091950e-02,  1.58406775e-02,\n",
+       "                       -1.95811503e-02, -1.25027495e-02, -2.45968197e-02, -1.35051878e-02,\n",
+       "                       -2.95459423e-02, -1.77637059e-02,  1.02170315e-02,  1.12621617e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (2): TFXLNetLayer(\n",
+       "            (rel_attn): TFXLNetRelativeAttention(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.0057871 , 1.0332363 , 1.0212928 , 0.9999723 , 1.033825  ,\n",
+       "                       1.0029198 , 1.0058116 , 1.0149196 , 1.0082165 , 1.0243226 ,\n",
+       "                       1.0096213 , 0.99784964, 1.0176283 , 1.043794  , 1.027943  ,\n",
+       "                       1.0534654 , 1.0061653 , 0.98920953, 1.0062771 , 0.97829   ,\n",
+       "                       1.0035368 , 1.0533798 , 1.0020728 , 1.0023332 , 1.0052046 ,\n",
+       "                       1.0174168 , 1.1191556 , 1.0025481 , 1.0015385 , 1.017479  ,\n",
+       "                       1.018475  , 0.9849396 , 0.97287726, 1.0402071 , 1.0285083 ,\n",
+       "                       1.0055572 , 1.0146956 , 1.0404365 , 1.0037504 , 1.0148568 ,\n",
+       "                       1.0283828 , 0.99278283, 1.0248725 , 1.022264  , 1.0001345 ,\n",
+       "                       1.0017784 , 1.0346408 , 0.9981527 , 1.0122838 , 0.98120767,\n",
+       "                       1.0215337 , 1.179416  , 1.0340352 , 1.0046171 , 1.024731  ,\n",
+       "                       1.0585825 , 0.98917764, 0.9997533 , 1.0075992 , 1.0392004 ,\n",
+       "                       1.0552956 , 0.9886238 , 1.023406  , 1.0362253 , 1.0081662 ,\n",
+       "                       1.0156927 , 0.9865759 , 1.0417926 , 1.0455471 , 1.0137287 ,\n",
+       "                       1.0280967 , 1.0077677 , 0.99449986, 1.0082475 , 1.0126015 ,\n",
+       "                       1.0092647 , 1.0124716 , 1.0199153 , 1.0341136 , 1.0260425 ,\n",
+       "                       1.0281512 , 1.024284  , 1.0110937 , 1.0095159 , 1.0170563 ,\n",
+       "                       1.0178514 , 1.039387  , 0.99133825, 1.0179511 , 0.9966715 ,\n",
+       "                       1.0261171 , 1.0154284 , 1.015804  , 1.0061381 , 1.0099896 ,\n",
+       "                       1.0000523 , 1.0007659 , 1.0363859 , 1.0635108 , 1.014356  ,\n",
+       "                       0.98796177, 1.030319  , 1.0046592 , 0.97458965, 1.0108676 ,\n",
+       "                       0.9928793 , 0.9558847 , 0.9925133 , 1.0085704 , 1.0427246 ,\n",
+       "                       1.0145886 , 1.0274279 , 1.0207925 , 1.0429372 , 1.0046413 ,\n",
+       "                       1.0268769 , 1.0306258 , 0.99699676, 1.0163515 , 0.9908004 ,\n",
+       "                       1.0140766 , 0.9912396 , 1.0172839 , 1.0117    , 1.0167714 ,\n",
+       "                       0.99298805, 0.9969487 , 1.0303023 , 0.9882936 , 1.0046637 ,\n",
+       "                       1.016881  , 1.0134546 , 1.0471387 , 0.99485767, 1.011368  ,\n",
+       "                       1.0557008 , 0.9968898 , 1.0360297 , 1.0016598 , 1.0374504 ,\n",
+       "                       1.0292593 , 1.0112805 , 1.0623062 , 0.98729765, 1.0029736 ,\n",
+       "                       1.031483  , 1.0078738 , 0.99074715, 1.0818259 , 1.0101855 ,\n",
+       "                       0.9861434 , 1.004235  , 1.0262736 , 1.0209796 , 1.001568  ,\n",
+       "                       1.0096675 , 1.0404271 , 0.9835611 , 1.0241301 , 1.0369594 ,\n",
+       "                       1.0074248 , 1.0424756 , 0.9942452 , 0.99875724, 1.033678  ,\n",
+       "                       1.0853536 , 1.0074345 , 1.0366769 , 1.0091823 , 1.0067376 ,\n",
+       "                       1.0233204 , 1.0372906 , 1.0645523 , 0.9926111 , 1.0274863 ,\n",
+       "                       1.041852  , 1.0358343 , 1.0027225 , 1.0693008 , 1.0230322 ,\n",
+       "                       1.0631505 , 1.0215074 , 0.9722386 , 1.0141385 , 1.025084  ,\n",
+       "                       1.0470202 , 1.0165733 , 1.0124934 , 1.0319704 , 1.0043234 ,\n",
+       "                       1.0158199 , 0.99025494], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/rel_attn/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([ 7.59856217e-03,  4.24561910e-02,  7.99102522e-03,  1.71857737e-02,\n",
+       "                       -1.03637101e-02,  3.16838245e-03,  3.60901840e-03,  4.19523055e-03,\n",
+       "                       -6.87508844e-03, -6.87943026e-03, -5.10497158e-03, -8.22180882e-03,\n",
+       "                        8.77292734e-03, -2.58738408e-03, -2.08214354e-02, -1.79159064e-02,\n",
+       "                       -1.11684657e-03, -7.38986069e-04, -1.19412383e-02,  1.42388390e-02,\n",
+       "                       -1.66760180e-02,  2.08622776e-03, -2.57751974e-03, -8.82026181e-03,\n",
+       "                        1.15794945e-03, -1.44918431e-02,  4.93793860e-02, -3.27913207e-03,\n",
+       "                       -4.28729737e-03, -4.89461794e-03,  1.88506544e-02, -6.22330047e-03,\n",
+       "                        4.18603653e-03, -1.38241351e-02,  1.14280488e-02, -2.84738315e-04,\n",
+       "                        8.89829081e-03, -1.11413759e-03,  4.17278428e-03, -1.35365466e-03,\n",
+       "                        1.28041944e-02,  1.15375938e-02, -6.41845446e-03,  9.64137726e-03,\n",
+       "                        2.59947684e-03, -4.25522914e-03,  9.96628869e-03,  1.62370726e-02,\n",
+       "                        7.52341375e-03, -9.28277243e-03,  5.81439584e-03,  7.83476010e-02,\n",
+       "                       -6.71153562e-03,  2.24725250e-03,  2.08039153e-02, -5.01795486e-02,\n",
+       "                       -1.73597485e-02, -8.89169611e-03,  7.42495526e-04,  6.78870874e-03,\n",
+       "                       -3.18759643e-02,  1.50445709e-03, -3.69086815e-03,  6.01144927e-03,\n",
+       "                        3.52614955e-03,  2.10542441e-03, -3.93726258e-03, -9.05793067e-03,\n",
+       "                       -5.51527715e-04, -4.15784819e-03, -1.57790836e-02,  1.25657795e-02,\n",
+       "                        5.08130435e-03,  6.50481321e-03,  1.63632873e-02,  1.73130240e-02,\n",
+       "                       -2.43367138e-03,  1.85030117e-03,  1.54299662e-03, -5.31600381e-05,\n",
+       "                        1.75052956e-02,  1.71876000e-03,  4.45382996e-03, -4.30531753e-03,\n",
+       "                       -1.16280653e-02,  2.11134292e-02, -2.23673265e-02,  7.13334139e-03,\n",
+       "                       -1.41991712e-02, -1.31303091e-02, -1.44726951e-02, -8.39852076e-03,\n",
+       "                       -1.02737797e-02,  2.51649469e-02, -2.17619655e-03,  3.18338871e-02,\n",
+       "                        6.02364819e-03, -3.28926258e-02,  8.89856555e-03, -1.79745432e-03,\n",
+       "                        6.78307377e-03,  1.72448792e-02, -1.61184631e-02,  7.45668355e-03,\n",
+       "                        1.26204602e-02,  9.98649187e-03,  2.81444062e-02,  2.30935658e-03,\n",
+       "                       -1.77086389e-03, -1.28207710e-02,  8.45415145e-03, -3.29405675e-03,\n",
+       "                       -5.72317652e-03, -2.71530338e-02, -1.77807845e-02,  1.11351041e-02,\n",
+       "                       -1.00642750e-02, -1.56395938e-02,  3.36114839e-02, -1.72200203e-02,\n",
+       "                       -9.74771846e-03,  3.32418010e-02, -1.05427857e-02,  2.02785395e-02,\n",
+       "                       -6.68006064e-03,  2.28713281e-04, -8.21154565e-03,  3.10888048e-02,\n",
+       "                       -4.19865269e-03,  6.00909209e-03, -7.54437642e-03, -5.50453411e-03,\n",
+       "                        1.89670883e-02, -1.07095791e-02,  5.02277690e-04,  7.32586626e-03,\n",
+       "                       -4.09575505e-03, -2.85738874e-02,  2.87018227e-03, -2.15759897e-03,\n",
+       "                        1.81071796e-02, -6.09889021e-03,  1.60865113e-02, -8.74181185e-03,\n",
+       "                        1.72416996e-02,  8.38244241e-03,  1.15022238e-03,  1.16248718e-02,\n",
+       "                       -2.85649057e-02, -9.58522037e-03, -8.16637039e-05, -2.19359994e-02,\n",
+       "                       -3.00931241e-02, -4.67210496e-03, -2.23919563e-02, -7.52190128e-03,\n",
+       "                       -1.04973540e-02, -8.82059149e-03,  3.65124480e-03, -1.63061526e-02,\n",
+       "                       -3.07336613e-03,  4.76394920e-03, -7.85821769e-03, -1.34929726e-02,\n",
+       "                        9.88984201e-03, -6.62930831e-02, -1.58152245e-02, -1.60966665e-02,\n",
+       "                        1.41415140e-02,  1.45050827e-02, -1.96240973e-04, -7.24124722e-04,\n",
+       "                       -1.78274736e-02, -6.59982441e-03,  8.05374142e-03,  1.00671398e-02,\n",
+       "                       -9.55150276e-03, -6.95818989e-03, -2.66786981e-02, -1.08323013e-02,\n",
+       "                        7.38756062e-05,  1.03484967e-03,  1.49620511e-02,  2.81481780e-02,\n",
+       "                        4.79391264e-03,  6.22483063e-03, -3.92652489e-03,  5.56191429e-03,\n",
+       "                       -9.80110746e-03, -1.08523564e-02,  2.62236502e-02, -4.83083492e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (q): <tf.Variable 'transformer/layer_._2/rel_attn/q:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.06234125,  0.08348493,  0.05271349, ..., -0.04905114,\n",
+       "                        0.06002877,  0.07014746],\n",
+       "                      [ 0.01078404,  0.01441736, -0.00631271, ..., -0.00126975,\n",
+       "                       -0.00407829, -0.02982283],\n",
+       "                      [ 0.02175241,  0.07973423, -0.02206543, ..., -0.10772092,\n",
+       "                       -0.12188936,  0.01044118],\n",
+       "                      ...,\n",
+       "                      [ 0.00032629,  0.03708308, -0.06995119, ..., -0.02210348,\n",
+       "                       -0.03649073,  0.04809769],\n",
+       "                      [ 0.01826541,  0.00481216,  0.01058115, ..., -0.01575439,\n",
+       "                       -0.01393961,  0.00625093],\n",
+       "                      [-0.02408669,  0.05260627,  0.03774166, ..., -0.01596219,\n",
+       "                        0.05104807,  0.03937525]],\n",
+       "              \n",
+       "                     [[ 0.02779769, -0.03340751, -0.01536217, ...,  0.06302352,\n",
+       "                        0.0216154 , -0.00151173],\n",
+       "                      [-0.00963598,  0.02632163, -0.05148864, ..., -0.00842124,\n",
+       "                       -0.04520626,  0.06177414],\n",
+       "                      [-0.03409315,  0.00782742,  0.01486818, ...,  0.05234182,\n",
+       "                       -0.03087698, -0.05324713],\n",
+       "                      ...,\n",
+       "                      [ 0.02451777, -0.06283689,  0.03903849, ...,  0.02784257,\n",
+       "                        0.0149576 , -0.03789261],\n",
+       "                      [ 0.02468628,  0.0147682 ,  0.01011168, ...,  0.00017318,\n",
+       "                        0.00441966, -0.02091843],\n",
+       "                      [ 0.04509341, -0.02262525,  0.06885201, ..., -0.072127  ,\n",
+       "                       -0.02234302, -0.02799728]],\n",
+       "              \n",
+       "                     [[-0.02003128, -0.02902497, -0.02048736, ...,  0.00256414,\n",
+       "                       -0.02856174,  0.02460355],\n",
+       "                      [-0.02152068, -0.01040548, -0.00720556, ...,  0.02811522,\n",
+       "                       -0.03958235,  0.06043673],\n",
+       "                      [-0.00299573, -0.05975921,  0.02358114, ...,  0.01305199,\n",
+       "                        0.06924431,  0.01198481],\n",
+       "                      ...,\n",
+       "                      [-0.01442131, -0.01633287,  0.06204606, ...,  0.03050506,\n",
+       "                        0.00815727, -0.05987699],\n",
+       "                      [-0.00394178,  0.01078314,  0.0028196 , ..., -0.00517203,\n",
+       "                        0.02769065, -0.00503104],\n",
+       "                      [ 0.03049225, -0.01576989,  0.00254666, ..., -0.02251267,\n",
+       "                       -0.03106628, -0.01190897]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.00339118, -0.03024405, -0.03525003, ..., -0.0079357 ,\n",
+       "                        0.00962144,  0.02216074],\n",
+       "                      [ 0.06947004, -0.06062919,  0.04593202, ...,  0.04568027,\n",
+       "                        0.05047652, -0.05793334],\n",
+       "                      [ 0.11836407,  0.06272735,  0.00067443, ...,  0.00550534,\n",
+       "                        0.03630037, -0.02081595],\n",
+       "                      ...,\n",
+       "                      [-0.06524166,  0.02345604, -0.01313383, ..., -0.03301872,\n",
+       "                       -0.03735002,  0.00037564],\n",
+       "                      [-0.03938673, -0.03632034,  0.00092862, ...,  0.01558411,\n",
+       "                       -0.00075396,  0.0101775 ],\n",
+       "                      [-0.04090933,  0.01356268, -0.04852635, ..., -0.00499562,\n",
+       "                        0.02987474,  0.02531883]],\n",
+       "              \n",
+       "                     [[ 0.01056831, -0.04749409, -0.03694331, ...,  0.05555313,\n",
+       "                       -0.00110841, -0.0184141 ],\n",
+       "                      [-0.00554059,  0.0175445 , -0.01705179, ...,  0.00723137,\n",
+       "                       -0.03601098, -0.01009218],\n",
+       "                      [-0.0150836 ,  0.00666366,  0.06633871, ...,  0.04543896,\n",
+       "                       -0.02726434, -0.06670793],\n",
+       "                      ...,\n",
+       "                      [ 0.00740686, -0.07095704,  0.01820407, ...,  0.01863899,\n",
+       "                       -0.00714878, -0.04596868],\n",
+       "                      [ 0.01260169,  0.03565225, -0.01171624, ..., -0.02946363,\n",
+       "                        0.00646609, -0.01957519],\n",
+       "                      [-0.0440557 ,  0.07693814,  0.07808633, ..., -0.05995817,\n",
+       "                        0.04248045,  0.05745625]],\n",
+       "              \n",
+       "                     [[-0.07753773, -0.07089977, -0.07884057, ...,  0.02975712,\n",
+       "                       -0.08073553, -0.0621541 ],\n",
+       "                      [-0.00550022,  0.0085198 , -0.06444216, ...,  0.03531897,\n",
+       "                       -0.05257558,  0.05456509],\n",
+       "                      [-0.04056812, -0.09348527,  0.0530269 , ...,  0.11246442,\n",
+       "                        0.15517569, -0.06778258],\n",
+       "                      ...,\n",
+       "                      [ 0.02758401, -0.00359426,  0.04186517, ...,  0.01238764,\n",
+       "                        0.02573269, -0.01919786],\n",
+       "                      [ 0.00237221,  0.01049417,  0.01227861, ..., -0.01254319,\n",
+       "                        0.01223521,  0.01139719],\n",
+       "                      [ 0.02927969, -0.0667349 ,  0.00143145, ..., -0.01885801,\n",
+       "                       -0.04819303, -0.0389314 ]]], dtype=float32)>\n",
+       "              (k): <tf.Variable 'transformer/layer_._2/rel_attn/k:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-3.94772254e-02, -6.41306937e-02, -4.13827300e-02, ...,\n",
+       "                        3.15646194e-02, -3.12801488e-02, -2.09214948e-02],\n",
+       "                      [-4.11971509e-02,  4.98755760e-02,  1.32313436e-02, ...,\n",
+       "                       -4.50457074e-02, -3.14410054e-03,  1.69730727e-02],\n",
+       "                      [-2.37825289e-02, -3.33431289e-02, -3.15161385e-02, ...,\n",
+       "                        2.36281566e-02,  5.52808158e-02,  3.62378657e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.09275335e-02, -3.74232717e-02,  5.80713265e-02, ...,\n",
+       "                        2.71868668e-02,  2.72399876e-02, -3.90068926e-02],\n",
+       "                      [-2.15795711e-02, -8.08936171e-03,  2.82208771e-02, ...,\n",
+       "                        1.46864895e-02, -9.80850868e-03,  2.31318623e-02],\n",
+       "                      [ 2.45238580e-02, -4.93060239e-02, -2.00063130e-03, ...,\n",
+       "                        1.31882494e-02, -1.79088470e-02, -4.58018892e-02]],\n",
+       "              \n",
+       "                     [[-4.79925536e-02, -7.13883620e-03, -1.70200616e-02, ...,\n",
+       "                        4.30573616e-03, -2.58588381e-02, -4.00255322e-02],\n",
+       "                      [ 2.06479542e-02, -9.69429209e-04,  4.45427969e-02, ...,\n",
+       "                       -3.11642475e-02,  4.58971709e-02, -6.06159568e-02],\n",
+       "                      [-2.16270816e-02, -2.47788690e-02,  8.99176486e-03, ...,\n",
+       "                       -3.50549109e-02,  2.83869740e-04,  2.76593976e-02],\n",
+       "                      ...,\n",
+       "                      [-9.84367728e-03,  4.42362092e-02, -3.88747454e-02, ...,\n",
+       "                       -3.33305337e-02, -1.39302714e-02,  3.08513269e-02],\n",
+       "                      [ 9.72330163e-05,  3.61726678e-04, -2.07237955e-02, ...,\n",
+       "                       -9.40586999e-03,  1.05890594e-02,  4.07860382e-03],\n",
+       "                      [-4.40552495e-02,  3.58287096e-02, -3.81228030e-02, ...,\n",
+       "                        6.48950562e-02,  5.46173677e-02,  2.66422555e-02]],\n",
+       "              \n",
+       "                     [[ 1.22328307e-02, -1.93379074e-02, -5.46430354e-04, ...,\n",
+       "                        2.66239718e-02,  6.38371892e-03, -1.59700308e-02],\n",
+       "                      [ 1.72801521e-02, -1.16762826e-02, -1.04958480e-02, ...,\n",
+       "                        1.92294214e-02,  3.55268340e-03, -2.62587853e-02],\n",
+       "                      [-6.89166319e-03,  3.61419693e-02,  1.63935386e-02, ...,\n",
+       "                        2.16508824e-02, -4.29583341e-02, -4.16333824e-02],\n",
+       "                      ...,\n",
+       "                      [-4.65792557e-03, -7.89630506e-03,  1.71894040e-02, ...,\n",
+       "                        9.70898382e-03, -6.56816317e-03, -1.70818679e-02],\n",
+       "                      [ 2.78675579e-03,  2.10756604e-02, -1.41859008e-02, ...,\n",
+       "                       -1.24089019e-02,  1.63065996e-02, -1.41478134e-02],\n",
+       "                      [-2.85000205e-02,  3.22563052e-02, -3.39996041e-05, ...,\n",
+       "                        4.72247694e-03,  2.15071123e-02,  1.35786245e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 2.42358502e-02,  5.12744300e-02,  4.75583598e-02, ...,\n",
+       "                        2.62557948e-03,  2.60219891e-02, -4.89659782e-04],\n",
+       "                      [-1.37466248e-02,  2.39855181e-02, -4.84416597e-02, ...,\n",
+       "                       -3.52280214e-02, -2.97512561e-02,  9.76292882e-03],\n",
+       "                      [-5.24343699e-02, -1.95866022e-02,  1.47199852e-03, ...,\n",
+       "                       -4.41279216e-03, -8.53088200e-02,  1.96372997e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.60169592e-02, -1.12776738e-03,  1.79300662e-02, ...,\n",
+       "                        3.84874344e-02,  2.32992452e-02, -2.62540132e-02],\n",
+       "                      [ 2.83117890e-02,  4.90925834e-02, -3.87031138e-02, ...,\n",
+       "                       -1.95439383e-02,  1.16576357e-02, -4.29532193e-02],\n",
+       "                      [ 1.17599946e-02,  1.08255483e-02,  4.30425294e-02, ...,\n",
+       "                       -8.63413513e-03,  8.09687935e-03, -1.47575168e-02]],\n",
+       "              \n",
+       "                     [[-2.11161710e-02,  6.08768780e-03, -1.51375579e-02, ...,\n",
+       "                       -3.95964719e-02, -7.04731699e-03, -1.02093741e-02],\n",
+       "                      [-6.73621707e-03,  4.62087430e-03,  8.06042086e-03, ...,\n",
+       "                        1.11963777e-02, -1.01704914e-02,  2.15507653e-02],\n",
+       "                      [-1.29628582e-02, -3.79046947e-02,  3.97373326e-02, ...,\n",
+       "                        1.78747326e-02,  2.81659290e-02, -4.53772619e-02],\n",
+       "                      ...,\n",
+       "                      [-1.97285041e-02,  2.54876073e-02, -4.10858989e-02, ...,\n",
+       "                       -1.10911569e-02, -7.09744217e-03,  2.43405420e-02],\n",
+       "                      [-3.26183736e-02, -3.64847258e-02,  2.64330506e-02, ...,\n",
+       "                       -2.24458892e-03,  2.19186093e-03,  3.57530229e-02],\n",
+       "                      [ 3.74469198e-02, -4.28201444e-02, -8.65745079e-03, ...,\n",
+       "                       -1.68640856e-02, -5.06263934e-02, -5.84868081e-02]],\n",
+       "              \n",
+       "                     [[ 2.95374412e-02,  2.48611113e-03,  5.80458995e-03, ...,\n",
+       "                        2.90872622e-02,  4.03674766e-02, -1.68689992e-02],\n",
+       "                      [ 2.24053338e-02, -1.48960911e-02,  6.33362308e-03, ...,\n",
+       "                        4.86489423e-02,  7.50374282e-03, -4.05806713e-02],\n",
+       "                      [ 2.55827680e-02,  1.85767263e-02,  2.60028038e-02, ...,\n",
+       "                       -1.36788404e-02, -7.14080334e-02, -1.08517408e-02],\n",
+       "                      ...,\n",
+       "                      [-4.35072295e-02, -3.15411463e-02, -2.18501817e-02, ...,\n",
+       "                       -3.80530059e-02, -5.09869009e-02, -2.31897011e-02],\n",
+       "                      [-1.93768069e-02, -2.13274453e-02,  1.93289435e-03, ...,\n",
+       "                       -7.42514804e-03,  1.38062406e-02,  2.07752399e-02],\n",
+       "                      [-2.49380674e-02,  4.27890457e-02,  2.95457132e-02, ...,\n",
+       "                       -5.99988271e-03,  2.97254454e-02,  3.55788060e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (v): <tf.Variable 'transformer/layer_._2/rel_attn/v:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-1.58644877e-02, -1.62909031e-02,  5.00995666e-02, ...,\n",
+       "                        5.24207130e-02, -3.80506441e-02,  1.04527883e-02],\n",
+       "                      [-3.09245456e-02,  4.52832878e-02, -3.65436375e-02, ...,\n",
+       "                       -2.97559872e-02,  2.07313546e-03,  3.96508761e-02],\n",
+       "                      [-2.23282147e-02, -4.96926345e-02, -8.38533193e-02, ...,\n",
+       "                        4.02813032e-02,  7.18669407e-03,  1.00084869e-02],\n",
+       "                      ...,\n",
+       "                      [ 5.54994717e-02, -6.85440842e-04,  6.61751628e-02, ...,\n",
+       "                        6.98446389e-03,  3.30823362e-02,  1.21366838e-02],\n",
+       "                      [ 4.69539873e-02,  5.99038340e-02,  3.56819779e-02, ...,\n",
+       "                       -3.75066176e-02,  1.15419859e-02, -1.12357801e-02],\n",
+       "                      [ 1.96084157e-02,  3.45024988e-02,  3.51261348e-02, ...,\n",
+       "                        2.33536810e-02,  1.73673294e-02,  1.88735779e-02]],\n",
+       "              \n",
+       "                     [[ 7.00034783e-04,  4.43254225e-02, -3.61993797e-02, ...,\n",
+       "                       -1.01138074e-02,  1.26488609e-02, -1.71760190e-02],\n",
+       "                      [ 3.64920273e-02, -1.57374945e-02,  4.31107357e-02, ...,\n",
+       "                       -1.70343544e-03, -1.85093228e-02, -1.72214750e-02],\n",
+       "                      [ 2.55862717e-02, -2.66940910e-02,  1.74765587e-02, ...,\n",
+       "                        2.03380585e-02, -2.64162403e-02,  4.29758057e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.22729898e-03,  3.42231169e-02, -3.71583700e-02, ...,\n",
+       "                       -1.99909993e-02, -3.34201287e-03, -1.14894807e-02],\n",
+       "                      [-2.31620437e-03, -1.74390487e-02,  1.49598904e-03, ...,\n",
+       "                       -1.63866114e-02,  1.97996534e-02, -1.46451220e-02],\n",
+       "                      [-2.22812425e-02, -1.40978247e-02,  3.97709124e-02, ...,\n",
+       "                        5.21076983e-03,  4.97731641e-02,  3.60605456e-02]],\n",
+       "              \n",
+       "                     [[-5.76440394e-02,  6.59279339e-03,  6.30571172e-02, ...,\n",
+       "                        7.76241207e-03,  9.36959125e-03,  4.67094360e-03],\n",
+       "                      [-7.77855283e-03,  4.28477377e-02, -1.87937953e-02, ...,\n",
+       "                       -1.09600574e-02,  3.76247801e-02, -1.16656590e-02],\n",
+       "                      [ 2.77719218e-02,  1.60257760e-02,  3.61022800e-02, ...,\n",
+       "                        2.16220301e-02,  3.12309824e-02, -2.29762644e-02],\n",
+       "                      ...,\n",
+       "                      [-8.95163789e-03,  4.01562974e-02,  8.33359361e-02, ...,\n",
+       "                        1.10300109e-02, -1.99703388e-02,  9.19944141e-03],\n",
+       "                      [-3.77306454e-02, -3.66421454e-02,  2.64238920e-02, ...,\n",
+       "                       -2.43516099e-02,  3.56255807e-02, -2.17668223e-03],\n",
+       "                      [-4.75421138e-02,  5.34872413e-02, -3.61219794e-03, ...,\n",
+       "                        6.75379634e-02,  8.22325796e-03, -3.92688029e-02]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 1.03400545e-02, -1.56616718e-02,  1.80531628e-02, ...,\n",
+       "                        4.09547333e-03,  6.04682369e-03, -2.47979490e-03],\n",
+       "                      [-6.01073680e-03,  1.35822203e-02, -1.94223188e-02, ...,\n",
+       "                        1.54315904e-02,  4.23007943e-02,  9.81388986e-03],\n",
+       "                      [ 3.03449854e-02,  6.18951395e-02, -3.08971498e-02, ...,\n",
+       "                       -3.36437561e-02,  4.31980332e-03, -1.20434752e-02],\n",
+       "                      ...,\n",
+       "                      [ 1.40916174e-02,  4.39837538e-02,  3.55901457e-02, ...,\n",
+       "                        1.86255127e-02, -2.55157333e-03,  3.30475681e-02],\n",
+       "                      [-6.14691805e-03, -1.21009874e-03,  6.18668739e-03, ...,\n",
+       "                        7.57104205e-03, -3.07258405e-02, -6.10211864e-05],\n",
+       "                      [-2.05689538e-02,  2.61113532e-02, -1.36594288e-02, ...,\n",
+       "                        3.22956629e-02,  9.42087919e-03, -2.71793958e-02]],\n",
+       "              \n",
+       "                     [[-3.18994038e-02,  2.98762377e-02, -4.58624493e-03, ...,\n",
+       "                       -3.14713195e-02, -3.61298025e-03, -1.81986094e-02],\n",
+       "                      [-3.42853963e-02, -5.06591192e-03, -3.48398313e-02, ...,\n",
+       "                       -9.28449351e-03, -1.66443270e-02,  8.47470853e-03],\n",
+       "                      [-1.73601918e-02,  3.66732851e-02,  4.99416888e-03, ...,\n",
+       "                       -3.08772968e-03, -5.62098771e-02, -3.27138081e-02],\n",
+       "                      ...,\n",
+       "                      [-1.00883364e-03,  4.41332869e-02,  2.31967717e-02, ...,\n",
+       "                        2.40737461e-02, -1.68242175e-02,  2.50099483e-03],\n",
+       "                      [ 8.56396370e-03,  2.12957878e-02,  1.40406489e-02, ...,\n",
+       "                       -2.74769403e-02,  4.22054939e-02,  2.11386364e-02],\n",
+       "                      [ 4.71551064e-03,  2.22238470e-02, -3.67458686e-02, ...,\n",
+       "                        5.65739311e-02, -3.86471301e-03,  3.21120396e-02]],\n",
+       "              \n",
+       "                     [[-6.54545240e-03,  6.59759808e-03,  3.10065020e-02, ...,\n",
+       "                       -9.30190831e-03,  8.43427628e-02, -2.98959631e-02],\n",
+       "                      [-8.13470513e-04,  1.32250199e-02,  3.23896222e-02, ...,\n",
+       "                        2.87297219e-02,  4.73870635e-02, -5.47314212e-02],\n",
+       "                      [ 8.83145910e-03,  3.59255895e-02,  3.82480241e-04, ...,\n",
+       "                       -2.42862813e-02,  1.51623031e-02,  4.65482958e-02],\n",
+       "                      ...,\n",
+       "                      [ 2.51283403e-03, -3.90026607e-02, -3.47779356e-02, ...,\n",
+       "                        8.12389608e-03, -2.41510738e-02, -1.92626361e-02],\n",
+       "                      [-2.37690676e-02, -2.08333470e-02,  7.85396714e-03, ...,\n",
+       "                       -5.53582795e-03, -1.54151311e-02,  2.58248337e-02],\n",
+       "                      [ 3.37501578e-02, -1.90756079e-02,  6.25178516e-02, ...,\n",
+       "                       -1.13541130e-02,  2.42636055e-02, -3.49741355e-02]]],\n",
+       "                    dtype=float32)>\n",
+       "              (o): <tf.Variable 'transformer/layer_._2/rel_attn/o:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-0.01318777, -0.02295675, -0.00447986, ...,  0.02340226,\n",
+       "                        0.02396798,  0.02395212],\n",
+       "                      [ 0.02522937,  0.01013704,  0.0086226 , ..., -0.00869954,\n",
+       "                        0.00192121,  0.00910798],\n",
+       "                      [ 0.01310639,  0.05106861, -0.01553375, ...,  0.00325352,\n",
+       "                        0.01052794,  0.01080661],\n",
+       "                      ...,\n",
+       "                      [ 0.03860697,  0.00321612,  0.01908875, ..., -0.01612688,\n",
+       "                       -0.03148167,  0.00176519],\n",
+       "                      [-0.01119953,  0.01437492,  0.02190567, ..., -0.0132356 ,\n",
+       "                       -0.01323991, -0.00115896],\n",
+       "                      [-0.0071844 ,  0.05996596,  0.01216447, ...,  0.02777538,\n",
+       "                        0.02075953, -0.00351544]],\n",
+       "              \n",
+       "                     [[ 0.02537636,  0.02856876, -0.02342264, ..., -0.02573042,\n",
+       "                        0.01136574, -0.01453617],\n",
+       "                      [ 0.04506863, -0.01258433,  0.03250534, ...,  0.01795811,\n",
+       "                        0.01470979,  0.01413825],\n",
+       "                      [ 0.03603299,  0.03263394,  0.00097002, ...,  0.0020968 ,\n",
+       "                        0.02974231,  0.02116193],\n",
+       "                      ...,\n",
+       "                      [-0.02552052,  0.05043046, -0.05692687, ..., -0.05374872,\n",
+       "                        0.04860976, -0.01264693],\n",
+       "                      [ 0.01037689, -0.0361127 , -0.01846472, ..., -0.00514735,\n",
+       "                        0.02535365, -0.01905973],\n",
+       "                      [ 0.00298942, -0.00408463, -0.02461437, ...,  0.0171862 ,\n",
+       "                        0.06361403,  0.02029764]],\n",
+       "              \n",
+       "                     [[-0.02168439, -0.01428589,  0.0188216 , ...,  0.04270842,\n",
+       "                       -0.01303979,  0.02056494],\n",
+       "                      [ 0.00568785, -0.0082274 , -0.0066022 , ...,  0.01012719,\n",
+       "                        0.05014695, -0.02596882],\n",
+       "                      [-0.04066228, -0.00621352, -0.00332704, ..., -0.0157308 ,\n",
+       "                        0.0195204 , -0.03985695],\n",
+       "                      ...,\n",
+       "                      [ 0.02584991,  0.03518784,  0.02574175, ..., -0.01257392,\n",
+       "                       -0.04206349, -0.0048046 ],\n",
+       "                      [-0.01413388, -0.01485168,  0.02406313, ..., -0.01778922,\n",
+       "                        0.00461665,  0.00139692],\n",
+       "                      [-0.02803544, -0.00650722, -0.0021756 , ..., -0.00980162,\n",
+       "                        0.00206922,  0.00554118]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.05177293,  0.02650772, -0.00978526, ...,  0.0043966 ,\n",
+       "                        0.03506858,  0.01135329],\n",
+       "                      [ 0.0375731 , -0.01540854, -0.01112673, ...,  0.04526203,\n",
+       "                        0.0233603 ,  0.03603827],\n",
+       "                      [-0.02273492,  0.03706569,  0.02575646, ..., -0.03564757,\n",
+       "                       -0.04142889,  0.02389054],\n",
+       "                      ...,\n",
+       "                      [ 0.01941642, -0.0085012 , -0.0557094 , ..., -0.01670198,\n",
+       "                       -0.02052434, -0.00168407],\n",
+       "                      [-0.0351553 ,  0.01551712,  0.00915734, ...,  0.03178797,\n",
+       "                       -0.05964255, -0.00596981],\n",
+       "                      [-0.01134368,  0.00964628,  0.02129234, ..., -0.0319788 ,\n",
+       "                       -0.00213671, -0.03973258]],\n",
+       "              \n",
+       "                     [[-0.02210673,  0.00523586, -0.02834713, ..., -0.0636308 ,\n",
+       "                        0.01308194, -0.04781625],\n",
+       "                      [ 0.04696853,  0.006044  ,  0.04008915, ..., -0.01530645,\n",
+       "                       -0.00495765,  0.02629478],\n",
+       "                      [-0.00497302,  0.04778329,  0.03536648, ...,  0.03902463,\n",
+       "                       -0.02539242,  0.00059366],\n",
+       "                      ...,\n",
+       "                      [-0.03652025, -0.01612661, -0.00615743, ...,  0.02422498,\n",
+       "                       -0.0361707 ,  0.00268991],\n",
+       "                      [-0.04141604,  0.02176796, -0.0156197 , ..., -0.02489092,\n",
+       "                       -0.01849893, -0.01103601],\n",
+       "                      [ 0.00841193, -0.00149072,  0.02113938, ...,  0.02991742,\n",
+       "                        0.01191125, -0.06035671]],\n",
+       "              \n",
+       "                     [[-0.06655436,  0.02989374, -0.00491186, ..., -0.02252275,\n",
+       "                       -0.00717574, -0.01237144],\n",
+       "                      [ 0.02521724,  0.0361912 ,  0.00203329, ..., -0.02949763,\n",
+       "                        0.04080155,  0.00144356],\n",
+       "                      [ 0.02363535, -0.01556045,  0.02989104, ...,  0.01995425,\n",
+       "                       -0.04610887,  0.01528407],\n",
+       "                      ...,\n",
+       "                      [-0.01950484,  0.00086064,  0.0269462 , ...,  0.00156349,\n",
+       "                       -0.02226892,  0.00954708],\n",
+       "                      [-0.01465053,  0.01105888,  0.01764409, ..., -0.00928741,\n",
+       "                        0.04994562,  0.01589353],\n",
+       "                      [-0.03912487, -0.03753956,  0.01271566, ..., -0.02681927,\n",
+       "                        0.02774329,  0.00877878]]], dtype=float32)>\n",
+       "              (r): <tf.Variable 'transformer/layer_._2/rel_attn/r:0' shape=(192, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[ 0.15422297,  0.15251152,  0.15151495, ..., -0.14064746,\n",
+       "                        0.15980962,  0.17023641],\n",
+       "                      [ 0.12403049, -0.11331204,  0.12569176, ...,  0.03419707,\n",
+       "                        0.11924558, -0.12648791],\n",
+       "                      [ 0.18741001,  0.2065825 , -0.21270443, ..., -0.18990202,\n",
+       "                       -0.19090095,  0.21400924],\n",
+       "                      ...,\n",
+       "                      [-0.09375948,  0.1497509 , -0.15540144, ..., -0.14721322,\n",
+       "                       -0.1315167 ,  0.18122064],\n",
+       "                      [-0.0587317 , -0.04491074,  0.06508895, ...,  0.05110288,\n",
+       "                       -0.07071096,  0.06905462],\n",
+       "                      [-0.10754132,  0.09326541, -0.11327109, ...,  0.13738528,\n",
+       "                        0.11489961,  0.08941042]],\n",
+       "              \n",
+       "                     [[ 0.12603816,  0.12799536,  0.114959  , ..., -0.12556967,\n",
+       "                        0.13754195,  0.12753312],\n",
+       "                      [ 0.11207639, -0.08645801,  0.09082218, ...,  0.0140484 ,\n",
+       "                        0.09090979, -0.09082133],\n",
+       "                      [ 0.12011658,  0.13103087, -0.13148898, ..., -0.13706776,\n",
+       "                       -0.14105241,  0.14464939],\n",
+       "                      ...,\n",
+       "                      [-0.08723357,  0.13415268, -0.13347897, ..., -0.12054894,\n",
+       "                       -0.09278843,  0.11890148],\n",
+       "                      [-0.05226003, -0.05589713,  0.04540312, ...,  0.0524542 ,\n",
+       "                       -0.05015353,  0.05337596],\n",
+       "                      [-0.09745742,  0.05376444, -0.10187627, ...,  0.10980828,\n",
+       "                        0.09781883,  0.05953084]],\n",
+       "              \n",
+       "                     [[ 0.11002494,  0.11171411,  0.12875985, ..., -0.09876626,\n",
+       "                        0.09285793,  0.09519387],\n",
+       "                      [ 0.06178673, -0.06321578,  0.06327706, ...,  0.0183921 ,\n",
+       "                        0.070053  , -0.06644866],\n",
+       "                      [ 0.09401145,  0.12514193, -0.1072129 , ..., -0.11506124,\n",
+       "                       -0.10873202,  0.09183257],\n",
+       "                      ...,\n",
+       "                      [-0.05113322,  0.09918363, -0.06977255, ..., -0.06374843,\n",
+       "                       -0.06453439,  0.06466979],\n",
+       "                      [-0.05722687, -0.04498487,  0.05236579, ...,  0.04266383,\n",
+       "                       -0.03902495,  0.06698402],\n",
+       "                      [-0.08601442,  0.06496987, -0.08741223, ...,  0.08892538,\n",
+       "                        0.0762236 ,  0.05185533]],\n",
+       "              \n",
+       "                     ...,\n",
+       "              \n",
+       "                     [[ 0.03258494,  0.02736137,  0.03159478, ..., -0.0050315 ,\n",
+       "                        0.02083286,  0.01262121],\n",
+       "                      [ 0.00174807,  0.00937498,  0.00678354, ..., -0.02117664,\n",
+       "                        0.01459187,  0.01828629],\n",
+       "                      [ 0.02465683, -0.00056386, -0.00459205, ..., -0.01084275,\n",
+       "                       -0.01416829,  0.00643451],\n",
+       "                      ...,\n",
+       "                      [ 0.01033148,  0.01858198, -0.01299103, ..., -0.00311526,\n",
+       "                       -0.00346096,  0.01781024],\n",
+       "                      [ 0.01784543,  0.03135689, -0.02553988, ..., -0.01419736,\n",
+       "                        0.00564152, -0.04284179],\n",
+       "                      [-0.02111671,  0.00376334, -0.00511846, ...,  0.00299228,\n",
+       "                        0.01733587,  0.01314108]],\n",
+       "              \n",
+       "                     [[ 0.00155817,  0.0124634 , -0.00531541, ..., -0.02395814,\n",
+       "                        0.01838842,  0.01430834],\n",
+       "                      [-0.01416866,  0.01781069, -0.00140325, ..., -0.03955453,\n",
+       "                        0.00113838,  0.01469225],\n",
+       "                      [ 0.00463771,  0.01510996,  0.00966887, ..., -0.00089965,\n",
+       "                       -0.01006315, -0.01742918],\n",
+       "                      ...,\n",
+       "                      [ 0.02526212,  0.00189975, -0.00690951, ...,  0.03322651,\n",
+       "                        0.00972647, -0.00453685],\n",
+       "                      [-0.03453545, -0.00827258,  0.002002  , ..., -0.00169753,\n",
+       "                        0.00235903,  0.00800518],\n",
+       "                      [-0.00833696,  0.01879054, -0.00846341, ...,  0.0064977 ,\n",
+       "                       -0.01062366, -0.00981449]],\n",
+       "              \n",
+       "                     [[-0.00052047,  0.01607908,  0.0159875 , ..., -0.00116392,\n",
+       "                        0.03057439,  0.00448367],\n",
+       "                      [-0.00096017,  0.01755989,  0.00695677, ...,  0.01495614,\n",
+       "                        0.01156417, -0.00707076],\n",
+       "                      [ 0.0186196 ,  0.00072577, -0.00454208, ..., -0.02735286,\n",
+       "                       -0.01870047,  0.02145687],\n",
+       "                      ...,\n",
+       "                      [-0.02501232,  0.0173656 , -0.03569832, ..., -0.03760741,\n",
+       "                       -0.03900147,  0.02033172],\n",
+       "                      [ 0.02029336,  0.01859468, -0.00411095, ..., -0.02711406,\n",
+       "                        0.02178913, -0.0037175 ],\n",
+       "                      [-0.0084949 , -0.00486461,  0.00732055, ...,  0.00235856,\n",
+       "                        0.01311421,  0.00130192]]], dtype=float32)>\n",
+       "              (r_r_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_r_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[-0.26868203, -0.27535695, -0.2693576 ,  0.27960885,  0.27287057,\n",
+       "                      -0.2753529 ,  0.27302045,  0.27561706,  0.25255072,  0.26636192,\n",
+       "                      -0.28757757, -0.27930236],\n",
+       "                     [-0.17975715,  0.15488821, -0.20194016, -0.17133014,  0.18513367,\n",
+       "                      -0.17031926, -0.13915437, -0.174314  , -0.1761386 , -0.07194202,\n",
+       "                      -0.18746632,  0.19164573],\n",
+       "                     [-0.3003058 , -0.30145678,  0.29975912, -0.30536792,  0.28004438,\n",
+       "                      -0.30651012,  0.2930349 , -0.27700898,  0.31011826,  0.29096514,\n",
+       "                       0.2603118 , -0.2955512 ],\n",
+       "                     [-0.24198084, -0.24300672, -0.24064417,  0.22756597, -0.2342006 ,\n",
+       "                       0.23656972, -0.2141901 ,  0.2417877 , -0.22542073, -0.2244719 ,\n",
+       "                      -0.24350967,  0.22337465],\n",
+       "                     [-0.29359788, -0.31946722, -0.33398148, -0.28803867,  0.3236134 ,\n",
+       "                      -0.2811088 , -0.28998134,  0.3042817 , -0.35590464, -0.30023083,\n",
+       "                      -0.29228398,  0.30816096],\n",
+       "                     [ 0.2354194 , -0.17245759, -0.2630802 , -0.19778982,  0.25238597,\n",
+       "                      -0.2535281 , -0.21062599,  0.22958456,  0.23370266, -0.25747344,\n",
+       "                       0.21018639, -0.20019868],\n",
+       "                     [-0.27674368, -0.2830251 , -0.2683709 , -0.28431627, -0.2847683 ,\n",
+       "                      -0.27203888,  0.29270157, -0.27411065,  0.3012199 ,  0.29456046,\n",
+       "                      -0.29395536, -0.2936156 ],\n",
+       "                     [-0.28742933,  0.30742434,  0.32838947,  0.31597203,  0.32925567,\n",
+       "                      -0.29919747, -0.30918163, -0.34416848, -0.3180004 , -0.32539096,\n",
+       "                      -0.30107445,  0.32607213],\n",
+       "                     [ 0.23184535,  0.22952211,  0.23920947,  0.22898799, -0.24847259,\n",
+       "                       0.22576277, -0.22404635,  0.22275062, -0.25400835, -0.20933175,\n",
+       "                      -0.23276992,  0.24126779],\n",
+       "                     [-0.18964213,  0.17429198, -0.18237531, -0.19432713,  0.18581223,\n",
+       "                      -0.19006582, -0.18830542,  0.17501049, -0.18752085,  0.18117443,\n",
+       "                      -0.18904155, -0.17408559],\n",
+       "                     [-0.34026957, -0.31199163,  0.3708957 , -0.31058815,  0.34430262,\n",
+       "                       0.32358223, -0.25290844,  0.31337228,  0.30053562,  0.335105  ,\n",
+       "                       0.33377516, -0.33765417],\n",
+       "                     [-0.21473545, -0.22248077, -0.22520685, -0.23809859,  0.24367464,\n",
+       "                       0.2134066 ,  0.25153336,  0.20766017, -0.00349386, -0.22780456,\n",
+       "                       0.2263006 , -0.22154689],\n",
+       "                     [-0.15095639, -0.18229209, -0.1734314 ,  0.14655188,  0.19161867,\n",
+       "                       0.07208873,  0.17548715,  0.19643627,  0.18742768, -0.18380925,\n",
+       "                      -0.19883142, -0.1959907 ],\n",
+       "                     [ 0.2268816 , -0.2609067 ,  0.24444549, -0.25492504,  0.24929528,\n",
+       "                       0.27251542, -0.27039358,  0.28755218,  0.2603899 ,  0.2719274 ,\n",
+       "                       0.26308933, -0.2474161 ],\n",
+       "                     [ 0.18814561,  0.16956286, -0.1561942 , -0.16392718,  0.17291549,\n",
+       "                       0.18032758,  0.18189184, -0.1980179 ,  0.18668872, -0.17640045,\n",
+       "                       0.17143048, -0.17791554],\n",
+       "                     [ 0.17702802, -0.1416968 ,  0.19410823, -0.1850939 , -0.20523228,\n",
+       "                      -0.1414121 , -0.17293154,  0.13094904, -0.20175035, -0.19630112,\n",
+       "                      -0.1801811 , -0.12336571]], dtype=float32)>\n",
+       "              (r_s_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_s_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
+       "                     [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>\n",
+       "              (r_w_bias): <tf.Variable 'transformer/layer_._2/rel_attn/r_w_bias:0' shape=(16, 12) dtype=float32, numpy=\n",
+       "              array([[ 0.03094118,  0.09227013,  0.11201435, -0.08281983, -0.1155338 ,\n",
+       "                       0.09632084, -0.12966166, -0.08168372, -0.03784281, -0.11728286,\n",
+       "                       0.06686564,  0.10560343],\n",
+       "                     [-0.00972843,  0.00301247,  0.0213855 , -0.01911797,  0.00469647,\n",
+       "                      -0.02685864, -0.00583532, -0.01292591, -0.00499333, -0.01913606,\n",
+       "                       0.00341732,  0.02690028],\n",
+       "                     [ 0.03619004,  0.11354181, -0.17149776,  0.15797007, -0.15656814,\n",
+       "                       0.13987173, -0.10812069,  0.10685514, -0.12313732, -0.1284994 ,\n",
+       "                      -0.04995194,  0.11081317],\n",
+       "                     [ 0.03093367,  0.00487875,  0.06925732, -0.02231372,  0.01200025,\n",
+       "                       0.02084959,  0.01579359, -0.02532145,  0.02308956,  0.04844378,\n",
+       "                       0.00687829, -0.0300226 ],\n",
+       "                     [ 0.12325569,  0.19701692,  0.13378485,  0.01059841, -0.15528047,\n",
+       "                       0.05501186,  0.09498411, -0.11409605,  0.04993166,  0.12784524,\n",
+       "                       0.1036239 , -0.14872131],\n",
+       "                     [-0.06597345, -0.01467367,  0.03897054, -0.00212184, -0.08119051,\n",
+       "                       0.04852175, -0.00970348, -0.05740241, -0.07879417,  0.02758966,\n",
+       "                      -0.00241489, -0.00510158],\n",
+       "                     [ 0.09521554,  0.10691068,  0.11378186,  0.11781257,  0.11570975,\n",
+       "                       0.05820245, -0.09446467,  0.15486579, -0.06984306, -0.1343593 ,\n",
+       "                       0.06469096,  0.1278978 ],\n",
+       "                     [ 0.06212573, -0.17038704, -0.04677145, -0.07650258, -0.10857066,\n",
+       "                       0.08708575,  0.11975162,  0.07334787,  0.07723391,  0.08609731,\n",
+       "                       0.06248412, -0.10044962],\n",
+       "                     [-0.03502145, -0.04015782, -0.04989583, -0.02624421,  0.03372623,\n",
+       "                      -0.03072098,  0.01232656, -0.04399421,  0.02231663,  0.01969207,\n",
+       "                       0.02983998,  0.00214368],\n",
+       "                     [ 0.00347692,  0.01442801, -0.0304993 , -0.03323466, -0.0023081 ,\n",
+       "                       0.00499137,  0.01037823,  0.0102771 , -0.04711171,  0.01533431,\n",
+       "                       0.00357566, -0.00581984],\n",
+       "                     [ 0.12339349,  0.00848057, -0.14387739,  0.14553407, -0.13200925,\n",
+       "                      -0.08951408, -0.03027294, -0.04229014, -0.02739212, -0.12291225,\n",
+       "                      -0.0491762 ,  0.07527936],\n",
+       "                     [ 0.01299402,  0.02844498,  0.03334109,  0.07558666,  0.00912123,\n",
+       "                      -0.00561106,  0.00316214,  0.01945617, -0.06495948,  0.0313393 ,\n",
+       "                      -0.03638548,  0.05631591],\n",
+       "                     [-0.03493267,  0.0009238 , -0.03275893, -0.07044513,  0.02833049,\n",
+       "                      -0.05842603,  0.03714465, -0.05074135,  0.03266738, -0.04811786,\n",
+       "                       0.02824339,  0.04813497],\n",
+       "                     [-0.0230894 ,  0.06331895, -0.02569953,  0.05118599, -0.0753116 ,\n",
+       "                      -0.08294188,  0.01028657, -0.05590601, -0.07358146, -0.01478267,\n",
+       "                      -0.01705774,  0.05063409],\n",
+       "                     [ 0.01280639,  0.03038446,  0.00986827,  0.03244009, -0.00116751,\n",
+       "                       0.00987709,  0.0066936 , -0.01129914,  0.02202172,  0.0140991 ,\n",
+       "                      -0.0241296 , -0.02932922],\n",
+       "                     [ 0.03113999, -0.0431393 , -0.01171712, -0.02561518, -0.01583358,\n",
+       "                       0.05254831, -0.02684362,  0.04726546,  0.00764423, -0.02696961,\n",
+       "                      -0.04231891, -0.03636917]], dtype=float32)>\n",
+       "              (seg_embed): <tf.Variable 'transformer/layer_._2/rel_attn/seg_embed:0' shape=(2, 16, 12) dtype=float32, numpy=\n",
+       "              array([[[-5.27779851e-03, -8.88226088e-03, -2.81230034e-03,\n",
+       "                       -9.52023640e-03,  1.47909373e-02, -5.27651515e-03,\n",
+       "                        7.12421082e-04, -4.35501774e-04,  1.20813437e-02,\n",
+       "                        1.61098633e-02, -5.68047771e-03,  6.59660343e-03],\n",
+       "                      [ 8.12851795e-05,  1.06413811e-02,  1.21246511e-02,\n",
+       "                        8.09746701e-03, -1.66827242e-03,  5.45212487e-03,\n",
+       "                        2.51806108e-03, -7.02599110e-03, -5.89881674e-04,\n",
+       "                        7.86851277e-04,  8.42893124e-03, -5.61370468e-03],\n",
+       "                      [ 1.97568326e-03,  5.44500025e-03, -1.42024169e-02,\n",
+       "                       -8.83423816e-03, -1.29927546e-02,  1.79970870e-03,\n",
+       "                        7.78046018e-03, -4.26901923e-03,  1.98270730e-03,\n",
+       "                        4.82431892e-03,  3.14646889e-03,  1.76119134e-02],\n",
+       "                      [ 2.22888426e-03,  1.76985911e-03,  2.47098110e-03,\n",
+       "                       -2.46098149e-03, -7.75786582e-03, -9.53307562e-03,\n",
+       "                       -1.71756893e-02, -1.01085817e-02, -1.79497171e-02,\n",
+       "                        8.97192210e-03, -5.22097060e-03, -5.67968423e-03],\n",
+       "                      [ 4.55937535e-03,  5.47372131e-03,  2.80431146e-03,\n",
+       "                       -2.00350024e-03, -1.60003966e-03,  5.29667968e-03,\n",
+       "                       -4.33545560e-03,  5.67700062e-03,  1.46172643e-02,\n",
+       "                        8.63140821e-03,  6.99569564e-03,  9.81627963e-03],\n",
+       "                      [-1.26747666e-02,  8.24042596e-03, -4.08668164e-03,\n",
+       "                       -2.08276766e-03, -1.91742834e-02, -4.82950546e-03,\n",
+       "                        1.76985364e-03,  1.45667931e-02,  4.86878864e-03,\n",
+       "                        2.16771313e-03,  1.14471335e-02, -4.81423782e-03],\n",
+       "                      [ 1.19527150e-02,  1.98420696e-02, -9.66270454e-03,\n",
+       "                        1.13149686e-02,  1.12002278e-02, -5.22031775e-03,\n",
+       "                       -8.76240339e-03, -2.35813670e-03, -9.54557862e-03,\n",
+       "                        3.40229901e-03, -4.78588976e-04,  1.34701496e-02],\n",
+       "                      [ 8.69849138e-03, -2.89159734e-03, -1.06805945e-02,\n",
+       "                        1.16119636e-02,  5.37191145e-03, -5.13361010e-04,\n",
+       "                       -8.46221577e-03,  5.01126098e-03, -2.37584673e-03,\n",
+       "                        4.26042639e-03, -1.27333589e-03, -1.69654787e-02],\n",
+       "                      [-7.09492620e-03, -2.11342960e-03, -1.01511432e-02,\n",
+       "                        1.17846369e-03,  9.98882391e-03, -9.83751100e-03,\n",
+       "                       -1.30945332e-02, -5.21418918e-03,  7.06450688e-03,\n",
+       "                        2.37721877e-04,  4.22352878e-03,  1.44046254e-03],\n",
+       "                      [-8.36623274e-03,  6.10570842e-03, -1.59419682e-02,\n",
+       "                        6.57670712e-03, -1.63553599e-02, -2.56635365e-03,\n",
+       "                       -2.83746095e-03,  5.48101217e-03, -1.10250590e-02,\n",
+       "                       -2.07894505e-03,  8.96814838e-03, -2.38579977e-03],\n",
+       "                      [ 1.92926470e-02,  5.27919503e-04,  1.26005081e-03,\n",
+       "                        1.14092669e-02, -6.77683810e-03, -9.93159506e-03,\n",
+       "                        6.33316627e-03,  1.26732690e-02, -1.39365206e-02,\n",
+       "                       -1.03181750e-02,  9.53592185e-04,  5.34668751e-03],\n",
+       "                      [ 5.63685270e-03,  1.29154501e-02,  6.42203633e-03,\n",
+       "                        2.95452494e-03,  9.61340556e-04,  1.03710396e-02,\n",
+       "                        1.88411921e-02,  9.56728496e-03, -2.44812435e-03,\n",
+       "                        1.41650520e-03, -3.90278571e-03,  1.16586024e-02],\n",
+       "                      [-3.03845573e-03,  1.16512487e-02,  1.38139790e-02,\n",
+       "                        6.47752266e-03, -5.40793641e-03, -1.19044734e-02,\n",
+       "                       -4.70434874e-03, -6.79142633e-03, -3.91318183e-03,\n",
+       "                       -8.58331285e-03,  1.55337723e-02, -9.22051352e-03],\n",
+       "                      [ 1.43822525e-02, -9.65516735e-03,  1.16251959e-02,\n",
+       "                        3.56233446e-03,  5.01413178e-03, -1.28455460e-02,\n",
+       "                        3.44698690e-03,  5.95927332e-03,  5.65657916e-04,\n",
+       "                       -1.57259824e-03,  2.90443003e-03,  6.97103469e-03],\n",
+       "                      [ 2.19722962e-04,  8.19719862e-03,  1.07631981e-02,\n",
+       "                       -1.24994228e-02, -1.02878679e-02,  8.78847297e-03,\n",
+       "                       -9.00726300e-03,  5.99039858e-03, -4.57549794e-03,\n",
+       "                       -3.82497930e-03, -8.10217857e-03,  7.49109359e-03],\n",
+       "                      [ 8.71846266e-03,  5.56638092e-03,  1.21459197e-02,\n",
+       "                       -5.88803319e-03,  1.12210959e-03, -5.64932078e-03,\n",
+       "                       -9.36472695e-03,  6.35942258e-03, -7.20582251e-03,\n",
+       "                        9.68251377e-03,  1.35562858e-02, -2.26370129e-03]],\n",
+       "              \n",
+       "                     [[-3.01201153e-03,  1.70398690e-03, -9.29654110e-03,\n",
+       "                        5.31336060e-03, -5.17250365e-03,  8.25267925e-04,\n",
+       "                        3.88166425e-03,  8.23030062e-03, -2.94712884e-03,\n",
+       "                        7.33170612e-03,  1.31624732e-02, -3.62283341e-03],\n",
+       "                      [ 1.46265989e-02,  7.61225261e-03,  1.41994213e-04,\n",
+       "                       -2.94563826e-03, -5.41416928e-03, -1.46033627e-03,\n",
+       "                       -8.13731458e-03,  1.42887337e-02, -1.95643865e-03,\n",
+       "                        2.03239126e-03,  1.96603732e-03, -4.00112243e-03],\n",
+       "                      [ 3.50447209e-03, -5.01147006e-03,  4.89398139e-03,\n",
+       "                        8.28224514e-03, -2.48171762e-03,  2.46420549e-03,\n",
+       "                       -1.76831894e-03,  9.03744064e-03,  8.11696111e-04,\n",
+       "                        1.04465755e-02, -9.57741402e-03,  5.22807427e-03],\n",
+       "                      [ 1.81312319e-02, -4.55953617e-04, -7.14232726e-03,\n",
+       "                       -2.30852817e-03, -8.78485572e-03,  1.75538776e-03,\n",
+       "                       -3.34007433e-03,  9.97890625e-03,  4.45234217e-03,\n",
+       "                        1.23756528e-02, -9.38791409e-03, -1.07417803e-03],\n",
+       "                      [ 4.70838370e-03, -7.59124989e-03,  1.18844379e-02,\n",
+       "                       -1.86773483e-02, -7.92077556e-03, -6.16677618e-03,\n",
+       "                       -3.28160217e-03,  3.82375624e-03,  1.12824058e-02,\n",
+       "                       -1.15379859e-02,  1.82860661e-02, -1.21967122e-03],\n",
+       "                      [ 1.13177570e-02, -4.38998686e-03,  1.43300099e-02,\n",
+       "                       -1.19108809e-02,  1.14921958e-03,  1.52586366e-03,\n",
+       "                       -4.80240735e-04,  1.56034110e-02, -2.46891589e-03,\n",
+       "                        4.48609563e-03,  6.74360152e-03,  2.37283413e-03],\n",
+       "                      [ 1.09547712e-02, -3.41630221e-04,  2.67111650e-03,\n",
+       "                        3.63814714e-03, -1.74294151e-02, -7.67725799e-03,\n",
+       "                       -8.49556644e-03, -5.96185913e-03, -6.28766883e-03,\n",
+       "                       -1.49066029e-02, -1.02604553e-02, -9.20697395e-03],\n",
+       "                      [-1.12318797e-02,  2.97943875e-03, -1.21366177e-02,\n",
+       "                       -3.75522487e-03, -6.15986576e-03,  3.84680135e-03,\n",
+       "                       -9.26485471e-03,  2.81514693e-03,  1.46201355e-02,\n",
+       "                       -2.88473908e-03,  1.03525519e-02,  1.86061300e-02],\n",
+       "                      [-9.53767449e-03,  9.74707492e-03,  3.40018771e-03,\n",
+       "                       -2.09565135e-03, -2.57639308e-03, -3.49352928e-03,\n",
+       "                        1.67317118e-03,  1.15692504e-02,  4.90729930e-03,\n",
+       "                        1.24288796e-04,  1.19305719e-02, -1.28981266e-02],\n",
+       "                      [ 1.02281254e-02,  4.78178402e-03, -4.35357308e-03,\n",
+       "                        3.73754930e-03,  8.29111412e-03,  5.05232904e-03,\n",
+       "                       -1.77625958e-02, -1.91882402e-02, -8.58434569e-03,\n",
+       "                        1.02265412e-03, -3.06064147e-03, -3.64471762e-03],\n",
+       "                      [-1.44330030e-02,  1.93670299e-02,  1.09457932e-02,\n",
+       "                       -5.87473903e-03, -9.07221809e-03,  1.16742980e-02,\n",
+       "                        2.36421984e-05, -8.71126482e-04, -9.67785250e-03,\n",
+       "                        3.82036879e-03,  9.15551838e-03, -2.89905164e-03],\n",
+       "                      [ 4.01087943e-03,  6.75610406e-03,  8.85603670e-03,\n",
+       "                       -3.47056519e-03,  8.73016892e-04, -1.01834640e-03,\n",
+       "                       -1.64966681e-03, -2.21235445e-03,  9.57684778e-03,\n",
+       "                        4.81542945e-03,  1.57893432e-04, -1.59290042e-02],\n",
+       "                      [-1.11627420e-02,  9.81606636e-03, -6.05386123e-03,\n",
+       "                       -3.32297711e-03, -7.22375279e-03,  2.24133884e-03,\n",
+       "                        2.15093256e-03, -1.19461836e-02,  1.10612076e-03,\n",
+       "                        1.65597424e-02,  1.16270292e-03, -2.23377813e-03],\n",
+       "                      [ 1.34263944e-03,  5.71138784e-03, -6.21036766e-03,\n",
+       "                       -1.15926396e-02, -9.60804336e-03,  2.78700469e-03,\n",
+       "                       -6.81011705e-03, -1.00470139e-02,  1.26223499e-02,\n",
+       "                       -1.38519770e-02,  8.48167855e-03, -8.67073797e-03],\n",
+       "                      [ 7.76617508e-03, -4.73470520e-03, -5.49206603e-03,\n",
+       "                       -1.75008969e-03,  2.21663760e-03, -6.05556136e-03,\n",
+       "                        1.34991286e-02, -1.12727834e-02,  1.85831555e-03,\n",
+       "                       -5.13528939e-03,  1.42547470e-02, -7.04276469e-03],\n",
+       "                      [ 2.68135243e-03, -6.54922193e-03,  8.23414978e-03,\n",
+       "                        2.85659893e-03,  8.38303566e-03,  9.66343097e-03,\n",
+       "                        1.36161223e-03,  1.24757364e-03, -1.30205378e-02,\n",
+       "                        3.25935357e-03,  1.72301754e-02, -6.05487078e-03]]],\n",
+       "                    dtype=float32)>\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (ff): TFXLNetFeedForward(\n",
+       "              (layer_norm): LayerNormalization(\n",
+       "                (axis): List(\n",
+       "                  (0): 2\n",
+       "                )\n",
+       "                (gamma): <tf.Variable 'transformer/layer_._2/ff/layer_norm/gamma:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([1.2522751 , 1.0093765 , 1.1682793 , 1.2730445 , 1.1290082 ,\n",
+       "                       1.1066203 , 1.2573878 , 1.2429068 , 1.1264472 , 1.2486175 ,\n",
+       "                       1.1848505 , 1.2741587 , 1.206441  , 1.0918944 , 1.0869336 ,\n",
+       "                       1.1999458 , 1.0683286 , 1.1028944 , 1.0555205 , 1.252938  ,\n",
+       "                       1.0823282 , 1.2489052 , 1.264616  , 1.2999828 , 1.2788929 ,\n",
+       "                       1.1698768 , 0.9360449 , 1.2396882 , 1.212866  , 1.263233  ,\n",
+       "                       1.1779826 , 1.2009988 , 1.2418183 , 1.2686338 , 1.1805633 ,\n",
+       "                       1.1343807 , 1.2727007 , 1.1718581 , 1.2787241 , 1.2082775 ,\n",
+       "                       1.1255412 , 1.1395037 , 1.1745707 , 1.0784985 , 1.2188327 ,\n",
+       "                       1.1633599 , 1.2963617 , 1.0634298 , 1.2542322 , 1.2530534 ,\n",
+       "                       1.2687988 , 0.8772695 , 1.0806193 , 1.2497077 , 1.1243813 ,\n",
+       "                       1.0014821 , 1.099511  , 1.1929379 , 1.100037  , 1.0372964 ,\n",
+       "                       1.1875197 , 1.2419759 , 1.283821  , 1.2847592 , 1.1503284 ,\n",
+       "                       1.1659832 , 1.2350835 , 1.2548746 , 1.1188186 , 1.2092803 ,\n",
+       "                       1.211994  , 1.2788891 , 1.2673773 , 1.158101  , 1.0983268 ,\n",
+       "                       1.2055833 , 1.1978227 , 1.1251754 , 1.2141727 , 1.2425163 ,\n",
+       "                       1.2850866 , 1.2721363 , 1.2333146 , 1.2206935 , 1.2748688 ,\n",
+       "                       1.1705027 , 1.0520046 , 1.2779021 , 1.2621833 , 1.2819186 ,\n",
+       "                       1.0821573 , 1.2487339 , 1.2016653 , 1.0732634 , 1.047415  ,\n",
+       "                       1.1905521 , 1.1431751 , 1.123514  , 1.167525  , 1.1280419 ,\n",
+       "                       1.2490776 , 1.0800833 , 1.0971141 , 1.1880326 , 1.0583612 ,\n",
+       "                       1.2673814 , 1.1592313 , 1.1000642 , 1.0691762 , 1.1786101 ,\n",
+       "                       1.03656   , 1.3018342 , 1.1104187 , 1.1516141 , 1.2461619 ,\n",
+       "                       1.2952878 , 1.2018924 , 1.1943662 , 1.1685911 , 1.1472508 ,\n",
+       "                       1.1439903 , 1.165938  , 1.2121962 , 1.1980138 , 1.2737277 ,\n",
+       "                       1.2126373 , 1.3023908 , 1.0751258 , 1.1792599 , 1.2828441 ,\n",
+       "                       1.1272415 , 1.0575378 , 1.2931595 , 1.2220132 , 1.1648686 ,\n",
+       "                       1.2046567 , 1.1758484 , 1.0887432 , 1.2748208 , 1.2743984 ,\n",
+       "                       1.0936766 , 1.1675012 , 1.1073984 , 1.2471579 , 1.2580185 ,\n",
+       "                       1.2944169 , 1.0588381 , 1.239205  , 1.0478017 , 1.0710353 ,\n",
+       "                       1.2854698 , 1.1657965 , 1.0569364 , 1.1264596 , 1.2301056 ,\n",
+       "                       1.1430358 , 1.0730251 , 1.2023942 , 1.1937732 , 1.2309388 ,\n",
+       "                       1.2708906 , 1.126246  , 1.1178268 , 1.2910633 , 1.2957244 ,\n",
+       "                       0.89223814, 1.234347  , 1.2954712 , 1.0805429 , 1.1072289 ,\n",
+       "                       1.2282895 , 1.1035715 , 1.2435746 , 1.2350806 , 1.279401  ,\n",
+       "                       1.1488963 , 1.2315387 , 1.1120211 , 1.2320697 , 1.1059345 ,\n",
+       "                       1.2748728 , 1.2064512 , 1.1769738 , 1.0744382 , 1.1339085 ,\n",
+       "                       1.3024759 , 1.0569987 , 1.1273695 , 1.1070974 , 1.2043669 ,\n",
+       "                       1.2093413 , 1.1788723 ], dtype=float32)>\n",
+       "                (beta): <tf.Variable 'transformer/layer_._2/ff/layer_norm/beta:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-2.98464089e-03, -1.50231654e-02,  2.09697019e-02, -1.23314664e-03,\n",
+       "                       -1.79774147e-02,  1.54648647e-02, -1.13313952e-02,  3.37430947e-02,\n",
+       "                       -1.76270995e-02,  1.56363547e-02, -1.68003254e-02, -2.02743132e-02,\n",
+       "                        2.23831926e-02,  1.05386216e-03,  2.83501968e-02, -3.07279024e-02,\n",
+       "                       -1.25424191e-02, -8.70161317e-03, -2.72763968e-02,  2.50578281e-02,\n",
+       "                       -3.35835037e-03, -6.12330018e-03, -5.59682120e-03, -6.94832532e-04,\n",
+       "                        7.69904582e-03, -1.18678005e-03, -3.49601321e-02, -9.72641818e-03,\n",
+       "                       -3.91906984e-02, -4.36295755e-02,  2.40605343e-02, -1.26803098e-02,\n",
+       "                        1.65936016e-02,  1.91623457e-02,  6.25976995e-02,  1.39758345e-02,\n",
+       "                        1.44732976e-02, -1.96330920e-02, -2.37285141e-02, -1.01893693e-02,\n",
+       "                        4.22124425e-03,  3.92983705e-02, -7.99220707e-03,  3.00118746e-03,\n",
+       "                        3.36812437e-02, -2.54718903e-02, -2.95100398e-02,  1.80750452e-02,\n",
+       "                       -1.00522372e-03, -4.38039601e-02, -9.71965864e-03, -6.45025522e-02,\n",
+       "                       -5.59889292e-03,  2.35542040e-02,  3.48944180e-02,  1.94434412e-02,\n",
+       "                       -2.65257247e-03,  1.47554267e-04,  1.92478672e-02, -1.64113492e-02,\n",
+       "                       -6.28845487e-03,  1.25184590e-02,  4.25684778e-03,  1.67209227e-02,\n",
+       "                        1.72825307e-02,  1.08774230e-02, -1.02349566e-02, -4.43569049e-02,\n",
+       "                        7.88553897e-03,  5.94177190e-03, -4.77964786e-05, -1.96775608e-03,\n",
+       "                        1.04662115e-02,  2.62461826e-02, -1.45518677e-02,  2.35954323e-03,\n",
+       "                       -5.59200021e-03, -3.64836911e-03,  3.70329954e-02,  5.26014389e-03,\n",
+       "                       -1.62950214e-02,  6.71906397e-04, -7.20348954e-03, -3.44505045e-03,\n",
+       "                       -4.67529781e-02, -4.02089814e-03, -2.22560782e-02, -3.31367482e-03,\n",
+       "                       -2.47765109e-02, -2.75341962e-02,  8.32898635e-03, -3.27639952e-02,\n",
+       "                       -4.90404200e-03, -1.50603792e-02,  3.19701433e-02,  4.32597250e-02,\n",
+       "                        5.01151616e-03,  2.81178905e-03, -2.32189838e-02, -1.96613707e-02,\n",
+       "                        4.05130386e-02,  8.65645998e-04, -2.15268787e-03,  1.02070961e-02,\n",
+       "                        2.35224515e-02, -2.00268682e-02,  7.35167265e-02,  1.41650038e-02,\n",
+       "                       -1.44532919e-02, -8.02343059e-03,  1.83129776e-02, -9.27788555e-04,\n",
+       "                        1.10090058e-02,  4.74795699e-03, -1.33473482e-02,  1.60589209e-03,\n",
+       "                        1.79640148e-02, -3.50943021e-02,  2.36071516e-02, -4.04885896e-02,\n",
+       "                        4.15267237e-03,  4.04605456e-02, -3.81647721e-02,  2.88253874e-02,\n",
+       "                        2.72405948e-02, -2.06570514e-02, -3.13308574e-02,  3.17084752e-02,\n",
+       "                        9.24810767e-03, -2.34516822e-02, -1.01891151e-02, -1.19521432e-02,\n",
+       "                        4.38026786e-02,  3.17258993e-03, -2.26926766e-02,  2.71393117e-02,\n",
+       "                       -3.68446931e-02,  1.49202673e-02, -3.11328359e-02, -2.83620413e-03,\n",
+       "                        5.08711534e-03, -4.33024056e-02, -1.89927369e-02, -1.01872627e-02,\n",
+       "                       -1.85664985e-02, -4.16085729e-03,  1.89902484e-02,  1.12784393e-02,\n",
+       "                        2.38752626e-02, -6.84569497e-03,  2.17821002e-02, -1.97977237e-02,\n",
+       "                       -1.66308414e-02, -3.07456274e-02, -3.78057733e-02, -3.30768041e-02,\n",
+       "                        3.19958180e-02, -2.58779544e-02,  3.01505718e-02, -1.23978639e-02,\n",
+       "                       -1.86105408e-02,  1.98843190e-03, -5.23419771e-03, -2.69749109e-02,\n",
+       "                        1.39689045e-02,  7.39523172e-02,  2.58618426e-02,  1.34255374e-02,\n",
+       "                        4.02543228e-03,  1.80811211e-02,  6.88319735e-04, -1.44856386e-02,\n",
+       "                       -1.87959094e-02, -1.02204261e-02, -2.11577900e-02,  2.42553800e-02,\n",
+       "                       -2.62665078e-02, -4.44081728e-04,  5.03046736e-02, -3.12130284e-02,\n",
+       "                       -3.50290053e-02, -3.22235823e-02,  1.90551504e-02,  4.61142883e-02,\n",
+       "                       -1.01779238e-03, -6.54420210e-03, -2.49097664e-02,  7.40637258e-03,\n",
+       "                        2.10344177e-02, -4.66982648e-02,  5.15882820e-02,  1.91493165e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_1): Dense(\n",
+       "                768, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_1/kernel:0' shape=(192, 768) dtype=float32, numpy=\n",
+       "                array([[-0.00731476, -0.00559723,  0.01555359, ...,  0.02702708,\n",
+       "                        -0.02925726,  0.0330934 ],\n",
+       "                       [ 0.00382878, -0.00857857, -0.00621445, ..., -0.03116777,\n",
+       "                        -0.02194773,  0.00094237],\n",
+       "                       [ 0.00849335, -0.00464835, -0.06374532, ..., -0.0259069 ,\n",
+       "                         0.0161467 , -0.03729364],\n",
+       "                       ...,\n",
+       "                       [ 0.00713318,  0.01849269, -0.01105219, ..., -0.02167626,\n",
+       "                        -0.01229631,  0.00088599],\n",
+       "                       [ 0.00013176,  0.01139327,  0.0476611 , ...,  0.01338592,\n",
+       "                         0.07754453,  0.05307612],\n",
+       "                       [ 0.02423082, -0.0159826 , -0.04952573, ...,  0.01666124,\n",
+       "                         0.02278122, -0.01013451]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_1/bias:0' shape=(768,) dtype=float32, numpy=\n",
+       "                array([-1.95844453e-02, -8.65549129e-03, -2.18259636e-02, -1.36310216e-02,\n",
+       "                       -1.93196833e-02, -9.62962210e-03, -1.83725618e-02, -5.56009170e-03,\n",
+       "                       -4.40984359e-03,  5.52236522e-03, -2.25103907e-02, -9.18406714e-03,\n",
+       "                       -3.52970622e-02, -1.04512926e-02, -3.21112722e-02,  1.59434713e-02,\n",
+       "                        1.79731555e-03, -7.85902236e-03, -2.92546619e-02, -1.98933110e-02,\n",
+       "                       -2.29590442e-02, -1.22489026e-02,  3.60434968e-03,  7.12449942e-03,\n",
+       "                       -3.12253740e-02, -1.14131710e-02, -6.21447153e-03, -1.52915362e-02,\n",
+       "                       -3.31035745e-03,  7.89731333e-04, -7.00089056e-03, -1.76686179e-02,\n",
+       "                       -2.90661827e-02, -2.20301133e-02, -4.60966863e-03, -2.97740158e-02,\n",
+       "                       -6.14430755e-03,  6.31537382e-03, -1.37350485e-02, -1.41976494e-02,\n",
+       "                       -2.04356965e-02, -2.56464281e-03, -3.42225693e-02, -5.60883759e-03,\n",
+       "                       -1.63527075e-02, -4.48552007e-03,  1.73742305e-02,  2.00275634e-03,\n",
+       "                       -8.75139143e-03, -4.51084562e-02, -4.63086031e-02, -1.92881525e-02,\n",
+       "                       -2.18698028e-02, -1.59494150e-02, -3.09668761e-02, -8.76304111e-04,\n",
+       "                       -1.74001250e-02, -4.11107317e-02,  1.11754416e-02, -1.77288183e-03,\n",
+       "                        1.37658382e-04, -3.70841920e-02, -1.52563611e-02, -6.32030098e-03,\n",
+       "                        1.86634064e-03, -1.54110473e-02,  6.92351721e-03, -2.04970017e-02,\n",
+       "                       -2.54487991e-02, -2.57756356e-02, -2.62815263e-02, -4.56504859e-02,\n",
+       "                        1.27559928e-02, -2.12265123e-02,  2.20705289e-02, -1.35426512e-02,\n",
+       "                        1.27521986e-02, -5.77939954e-03, -2.21070591e-02, -2.39898171e-02,\n",
+       "                       -4.66552265e-02, -4.68218559e-03, -2.94441953e-02, -2.85015106e-02,\n",
+       "                       -1.99070899e-03, -2.24121734e-02,  2.65262963e-04, -4.05716622e-04,\n",
+       "                       -1.18416417e-02, -4.56276089e-02, -1.00249611e-02, -2.25096680e-02,\n",
+       "                       -1.97661165e-02,  2.60626767e-02,  9.12914518e-04, -4.34975065e-02,\n",
+       "                       -2.43351050e-02, -2.52415165e-02, -1.68336742e-03, -3.83990258e-03,\n",
+       "                       -3.21206003e-02, -1.75539253e-03, -5.74760791e-03, -1.32581815e-02,\n",
+       "                       -1.14303064e-02, -9.56144091e-03, -3.09919217e-03,  1.45248398e-02,\n",
+       "                       -2.89597996e-02, -3.16334679e-03, -7.62297632e-03, -3.13032158e-02,\n",
+       "                       -9.86116193e-03, -8.94718897e-03, -2.10811645e-02, -2.30442844e-02,\n",
+       "                       -2.96968296e-02, -2.03740075e-02, -2.99714273e-03,  1.40837282e-02,\n",
+       "                       -7.52239348e-03, -9.83515941e-03, -1.95247680e-02, -3.18938721e-04,\n",
+       "                       -1.02474364e-02, -1.73518658e-02, -9.92205460e-03, -3.24068405e-02,\n",
+       "                       -1.67155545e-02, -1.11674285e-03, -5.44478605e-03, -2.58996198e-03,\n",
+       "                        3.79964826e-03, -2.50913482e-02, -1.45098930e-02, -6.08905044e-04,\n",
+       "                       -1.67759899e-02, -5.27007645e-03, -2.28520446e-02, -3.56323272e-02,\n",
+       "                       -2.78583020e-02, -1.34758893e-02, -3.02666277e-02,  5.92188118e-03,\n",
+       "                       -6.84797298e-03, -3.90171446e-03, -7.77713675e-03, -2.11589262e-02,\n",
+       "                        1.15987463e-02, -1.71765834e-02, -2.64393538e-02, -1.43159376e-02,\n",
+       "                       -5.10856174e-02, -9.35892202e-03, -1.20925158e-02, -2.55441926e-02,\n",
+       "                       -3.05666458e-02, -1.58648118e-02,  2.51809804e-04,  2.68528890e-03,\n",
+       "                        5.31575177e-03, -1.25083728e-02,  1.95785165e-02, -3.35548595e-02,\n",
+       "                       -2.30071484e-03, -7.61513133e-03,  2.28220434e-03, -1.32820485e-02,\n",
+       "                       -7.63081759e-03, -2.92753913e-02, -2.50888541e-02, -3.50784510e-02,\n",
+       "                       -2.57033855e-02,  4.95831668e-03, -1.38742791e-03,  1.31370546e-02,\n",
+       "                       -1.39689622e-02, -4.22309432e-03,  6.45820890e-03,  9.41634737e-03,\n",
+       "                       -1.96843199e-03, -1.86584722e-02, -1.09482966e-02, -1.01999249e-02,\n",
+       "                       -3.32051255e-02, -2.91097686e-02, -3.15269502e-03, -7.83520285e-03,\n",
+       "                        6.07596338e-03, -1.72054879e-02,  8.64808727e-03, -8.52772873e-03,\n",
+       "                        8.25701561e-03,  1.19442418e-02, -1.28312092e-02, -2.09524594e-02,\n",
+       "                        3.32198851e-03,  1.13781467e-02, -6.87208865e-03, -1.46617251e-03,\n",
+       "                        4.01694141e-03, -2.73761451e-02, -3.33210193e-02, -2.85687223e-02,\n",
+       "                       -1.53808054e-02, -2.30335258e-02, -3.43638062e-02, -4.63966839e-02,\n",
+       "                       -6.46878220e-03, -9.61133372e-03,  1.19184377e-02,  7.40477291e-04,\n",
+       "                        1.78783685e-02, -1.92430541e-02,  1.13883521e-03, -2.32018605e-02,\n",
+       "                       -1.42439594e-02, -2.12897211e-02, -1.34940271e-03, -9.22020245e-03,\n",
+       "                       -1.99375246e-02, -5.67923952e-03, -1.90065298e-02,  1.40939504e-02,\n",
+       "                       -2.25385018e-02, -1.80489309e-02, -4.51341942e-02,  4.81570465e-03,\n",
+       "                       -8.49147327e-03, -1.24779083e-02, -8.71823914e-03,  3.84293287e-03,\n",
+       "                       -9.64595191e-03,  4.06070799e-03, -1.71662867e-02,  8.08361359e-03,\n",
+       "                        4.40804521e-03,  3.59776284e-04, -5.90988342e-03,  3.04426067e-03,\n",
+       "                        5.96786430e-03,  1.60560627e-02, -3.93116521e-03, -2.79522557e-02,\n",
+       "                       -1.12993654e-03,  1.08668562e-02, -2.34042690e-03, -6.21559750e-03,\n",
+       "                       -4.45571216e-03, -9.82985925e-03, -9.75735299e-03, -1.84049146e-04,\n",
+       "                       -1.31330471e-02, -3.32680456e-02, -3.24590616e-02, -4.53572441e-03,\n",
+       "                       -4.74597607e-03, -2.42186561e-02, -9.95392073e-03, -2.64846124e-02,\n",
+       "                       -1.29699372e-02, -8.82939808e-03, -7.61334365e-03, -4.37332224e-03,\n",
+       "                       -4.84891981e-03, -2.47140750e-02, -9.76564921e-03, -1.71844754e-02,\n",
+       "                       -1.42972879e-02, -7.05601498e-02, -1.82255208e-02, -1.76547393e-02,\n",
+       "                       -2.88699996e-02, -2.51587853e-02, -5.03135212e-02, -2.16723774e-02,\n",
+       "                        3.29201878e-03, -1.39654111e-02, -4.10618857e-02, -1.55860493e-02,\n",
+       "                       -1.41667286e-02, -2.28298232e-02, -1.24321121e-03, -3.77828553e-02,\n",
+       "                       -4.00054269e-03, -9.93035268e-03, -2.89095137e-02, -6.19364670e-04,\n",
+       "                       -8.74714088e-03,  6.29378902e-03, -4.92501631e-03, -1.02337254e-02,\n",
+       "                       -3.39881144e-02, -9.59344767e-03,  2.02027299e-02, -3.52698043e-02,\n",
+       "                       -2.74944771e-02, -3.59510072e-02, -2.26303726e-03, -1.43029056e-02,\n",
+       "                       -1.29715437e-02, -8.12308956e-03,  1.62457244e-03,  3.21572809e-03,\n",
+       "                       -3.87752079e-03, -5.51236235e-02, -3.46730740e-05, -4.12351713e-02,\n",
+       "                       -1.47612831e-02, -1.24165532e-03, -9.91546735e-03, -3.65949795e-03,\n",
+       "                       -3.47949751e-03, -5.22602303e-03,  4.58968477e-03, -1.71663344e-03,\n",
+       "                       -1.45575954e-02, -8.76334962e-03,  6.46544434e-03,  9.01998859e-03,\n",
+       "                       -1.90767162e-02, -4.52305801e-04,  4.82608564e-03, -2.17572190e-02,\n",
+       "                       -2.26658508e-02, -3.69191691e-02, -1.36799123e-02, -1.03398168e-03,\n",
+       "                       -2.05054111e-03,  4.75895684e-03, -2.61215698e-02, -2.93900166e-02,\n",
+       "                       -1.68524461e-03, -5.52760288e-02,  4.33846656e-03, -3.15805897e-02,\n",
+       "                       -7.00849853e-03, -2.24584583e-02, -2.06082482e-02, -3.66691388e-02,\n",
+       "                       -4.40263771e-04, -1.99946407e-02, -2.51496676e-02, -7.82504212e-03,\n",
+       "                       -1.42441159e-02, -2.64672302e-02, -2.87744720e-02,  1.64955156e-03,\n",
+       "                       -3.01248636e-02, -1.64740607e-02, -1.62984226e-02, -2.10719258e-02,\n",
+       "                       -5.06412936e-03,  4.88817832e-03,  8.22153408e-03, -1.60204545e-02,\n",
+       "                        1.99927185e-02, -7.52092013e-03, -7.08112726e-03,  5.44202561e-03,\n",
+       "                       -1.41786495e-02, -1.19250556e-02, -1.44893001e-03,  2.39995029e-03,\n",
+       "                       -3.56406649e-03, -4.30744663e-02, -1.41634196e-02, -5.21397255e-02,\n",
+       "                        9.54880752e-03,  9.30607039e-03, -2.57963240e-02, -3.34309116e-02,\n",
+       "                       -1.39827076e-02, -3.60686071e-02, -1.42136365e-02, -8.58396932e-04,\n",
+       "                        2.00391700e-03, -2.73431186e-03, -6.61845356e-02, -1.31305335e-02,\n",
+       "                       -1.80768650e-02,  1.74880750e-03, -7.90730864e-03, -1.48344161e-02,\n",
+       "                       -2.08231173e-02, -9.09108203e-03, -1.70891769e-02, -4.69049588e-02,\n",
+       "                       -2.48399694e-02,  8.33071885e-04, -3.21469791e-02, -1.72363427e-02,\n",
+       "                       -3.02424617e-02, -6.71969168e-03, -3.47741949e-03,  7.35704461e-03,\n",
+       "                       -2.64123641e-02, -2.15444225e-03, -3.78520577e-04,  5.15253004e-03,\n",
+       "                       -5.63742453e-03, -1.09958490e-02, -2.77572637e-03,  5.70428139e-03,\n",
+       "                       -1.80389266e-02, -1.63417601e-03, -4.87279333e-03, -3.00320741e-02,\n",
+       "                       -4.01097490e-03,  1.28556753e-03,  3.73925245e-03, -2.40999996e-03,\n",
+       "                       -7.88006745e-03,  8.38188175e-03,  8.68380535e-03,  1.16670632e-03,\n",
+       "                        9.34353750e-03, -1.56317148e-02, -4.31581512e-02,  7.39409239e-04,\n",
+       "                       -1.12983510e-02, -2.41220146e-02, -1.41180642e-02, -6.60499930e-03,\n",
+       "                       -4.28165197e-02, -5.71281230e-03, -1.09349387e-02, -2.63239210e-03,\n",
+       "                       -4.80283499e-02, -2.84141172e-02, -5.64169139e-03, -7.94387888e-03,\n",
+       "                       -2.23233383e-02, -1.82960983e-02, -1.30282633e-03, -1.04888957e-02,\n",
+       "                       -3.02167088e-02, -6.29290659e-03, -4.82114628e-02, -3.22515122e-03,\n",
+       "                        7.33331218e-03,  9.07962676e-04, -9.51999985e-03, -6.66064536e-03,\n",
+       "                       -5.97348809e-02,  1.18374815e-02, -6.51209205e-02, -9.49933846e-03,\n",
+       "                       -5.09255426e-03, -1.59832719e-03, -2.32329424e-02,  8.66232347e-03,\n",
+       "                       -1.60102509e-02, -1.99118648e-02, -4.23244424e-02, -1.96607262e-02,\n",
+       "                       -4.89295041e-03, -3.10160760e-02, -2.57948111e-03,  1.46750594e-03,\n",
+       "                       -6.57568127e-03,  6.43703970e-04, -2.49447990e-02,  3.58949392e-03,\n",
+       "                        4.44795098e-03, -9.77641437e-03, -2.08274974e-03, -1.24405764e-04,\n",
+       "                        5.95462974e-04, -1.53845549e-02,  5.52301761e-03, -8.50411505e-03,\n",
+       "                       -3.42846066e-02, -7.10777938e-03, -3.12357210e-02,  4.27144440e-03,\n",
+       "                        3.05197551e-03, -2.08130665e-03, -1.88251026e-02, -2.55565699e-02,\n",
+       "                        6.63829735e-03, -1.57438703e-02,  8.91328615e-04, -4.25117016e-02,\n",
+       "                       -1.71183664e-02,  2.99484795e-03, -1.36743607e-02, -4.02842648e-02,\n",
+       "                        5.09863533e-03, -9.11824480e-02, -5.49048595e-02, -2.10822932e-03,\n",
+       "                       -1.06739160e-02, -8.31918791e-03,  1.30438653e-03, -4.87434305e-03,\n",
+       "                       -3.63245830e-02, -2.78281011e-02, -4.55521867e-02, -1.02171721e-02,\n",
+       "                       -5.75303752e-03, -5.24828993e-02,  4.32022708e-03, -6.54709432e-03,\n",
+       "                       -2.33584959e-02, -3.48939337e-02, -7.76915485e-03, -1.70537587e-02,\n",
+       "                       -7.09537463e-03, -2.94463374e-02, -1.72148533e-02, -2.75129508e-02,\n",
+       "                       -9.92418174e-03, -4.20823283e-02, -5.35115949e-04, -8.64472240e-03,\n",
+       "                       -1.03339497e-02,  8.30400363e-03, -5.02560586e-02, -4.49673412e-03,\n",
+       "                        1.16826333e-02,  6.03074534e-03, -2.10740622e-02, -3.57969111e-04,\n",
+       "                       -2.26442050e-03, -3.69632058e-02, -3.80805880e-03, -2.72384565e-03,\n",
+       "                       -4.61126193e-02, -1.18876994e-02, -5.34582324e-02, -2.87316609e-02,\n",
+       "                        3.55952932e-03, -1.65250469e-02, -3.89226130e-04, -4.53135855e-02,\n",
+       "                       -6.81232810e-02,  7.85995368e-03, -5.27369119e-02, -2.46313214e-02,\n",
+       "                       -1.38374474e-02, -4.60473709e-02, -1.61913000e-02, -2.28811782e-02,\n",
+       "                       -1.44989381e-03, -2.14263014e-02, -1.94337778e-02,  9.12142545e-03,\n",
+       "                        3.83314886e-03, -1.80786867e-02, -2.19889600e-02, -5.16478792e-02,\n",
+       "                        6.02354994e-03, -2.19489238e-03, -5.29424520e-03, -3.26552540e-02,\n",
+       "                        2.43347767e-03, -7.24237761e-04, -8.84142332e-03, -4.03352221e-03,\n",
+       "                       -1.16886729e-02,  4.68930881e-03, -7.22259469e-03,  1.23944611e-03,\n",
+       "                       -2.56220996e-02,  1.34780509e-02, -8.64358339e-03, -8.16160440e-03,\n",
+       "                       -4.98882588e-03,  9.65662021e-03, -2.68737953e-02, -2.60425098e-02,\n",
+       "                       -4.57399350e-04, -4.16626632e-02, -7.62977451e-03, -8.76080245e-03,\n",
+       "                       -2.78488602e-02,  9.84464679e-03,  1.59915872e-02, -1.19072513e-03,\n",
+       "                       -6.27124729e-03, -4.81498837e-02, -5.02719469e-02,  1.32357422e-02,\n",
+       "                       -1.59036852e-02, -1.48620699e-02, -2.75997724e-03, -1.50468238e-02,\n",
+       "                        1.27517467e-03, -3.25372294e-02, -3.67778167e-02, -2.34703533e-02,\n",
+       "                       -5.37173450e-02, -2.68561747e-02,  1.89162989e-03,  1.37316354e-03,\n",
+       "                       -5.83842816e-03, -1.23420609e-02, -2.72032358e-02, -7.56065827e-03,\n",
+       "                       -2.32472476e-02, -3.38321812e-02, -3.08886878e-02, -1.93791874e-02,\n",
+       "                       -3.79290641e-03, -3.19873244e-02, -2.72396225e-02,  2.30710757e-05,\n",
+       "                        2.83963210e-03, -2.40165298e-03,  5.99769992e-04, -6.07594289e-03,\n",
+       "                        3.56180884e-04, -1.26568293e-02, -3.26493755e-02, -2.29680166e-02,\n",
+       "                       -1.04542980e-02,  2.87670176e-03, -6.91271573e-03, -8.21887515e-03,\n",
+       "                       -8.12038220e-03,  4.77912789e-03, -3.76395807e-02, -3.34925354e-02,\n",
+       "                       -8.66606191e-04, -6.12113951e-03, -1.33696599e-02, -1.10623566e-02,\n",
+       "                       -7.43102422e-03, -1.73128415e-02, -2.33342331e-02, -8.00193474e-03,\n",
+       "                        1.08947763e-02,  1.58026591e-02, -5.78184798e-02, -1.50881810e-02,\n",
+       "                        7.65291695e-03, -1.97008159e-02, -2.75538564e-02, -6.19046739e-04,\n",
+       "                        1.03095146e-02, -9.23244283e-03, -1.66220032e-03, -1.08118318e-02,\n",
+       "                        1.54678084e-04, -3.01870927e-02,  1.21328533e-02,  1.23004033e-03,\n",
+       "                        5.92811080e-03, -1.74891129e-02, -7.97203276e-03, -3.60940173e-02,\n",
+       "                        1.91394368e-03,  3.88024375e-03,  4.38633189e-03, -3.56014445e-03,\n",
+       "                        2.77617783e-03,  1.29021546e-02, -8.97175167e-03,  4.41568252e-03,\n",
+       "                        3.88988736e-03, -1.73047297e-02, -1.00583248e-02, -1.68862753e-02,\n",
+       "                       -1.93748400e-02, -1.48645723e-02, -3.03139295e-02, -8.56790971e-03,\n",
+       "                        4.12521232e-03, -4.46134359e-02, -7.26060197e-03, -3.50069348e-03,\n",
+       "                       -1.19281905e-02, -4.15487774e-02, -2.92326454e-02, -3.62816104e-03,\n",
+       "                       -1.19600194e-02, -7.33099645e-03, -2.04111654e-02, -8.04576464e-03,\n",
+       "                       -2.37229131e-02, -8.75537284e-03,  1.32349450e-02,  1.51164429e-02,\n",
+       "                       -1.60937570e-02, -3.49037698e-03, -2.05647163e-02, -2.63897632e-03,\n",
+       "                       -1.45941060e-02, -2.63325628e-02, -1.41528817e-02, -2.86686718e-02,\n",
+       "                       -9.43535045e-02, -3.35978046e-02, -2.91406568e-02, -3.67362797e-02,\n",
+       "                       -3.62359881e-02,  1.02549302e-03,  1.69918574e-02, -5.69594232e-03,\n",
+       "                        7.00123608e-04,  3.14995268e-04, -1.63341183e-02, -2.89767552e-02,\n",
+       "                       -2.27220077e-02, -2.06695907e-02, -1.98527984e-02,  1.04915360e-02,\n",
+       "                       -2.67626513e-02, -1.36345634e-02, -3.16965915e-02, -8.29998776e-03,\n",
+       "                       -4.10684608e-02, -1.63521767e-02,  2.58752797e-03,  4.38870862e-03,\n",
+       "                       -1.61363035e-02, -2.45969519e-02, -1.71433333e-02,  8.06657877e-03,\n",
+       "                       -7.52152316e-03, -5.20398514e-03, -1.54290805e-02, -1.39743509e-02,\n",
+       "                       -4.71884683e-02, -2.41057146e-02, -3.73328105e-03, -1.17457667e-02,\n",
+       "                       -2.52842568e-02, -1.89893022e-02, -1.92469582e-02, -2.89458204e-02,\n",
+       "                       -7.09375087e-03, -2.78910063e-02, -1.45923123e-02,  8.32242332e-03,\n",
+       "                        1.10341394e-02, -2.75466032e-02,  6.03440392e-04, -1.99978463e-02,\n",
+       "                        1.23137678e-03, -4.57481015e-03, -7.94788240e-04, -2.74380017e-02,\n",
+       "                       -2.12681554e-02, -1.70778632e-02, -2.91341823e-02, -8.52928776e-03,\n",
+       "                       -2.18565483e-02, -6.50337413e-02,  3.29156080e-03,  1.06499000e-02,\n",
+       "                       -3.72955799e-02, -4.14734147e-02, -1.72340255e-02, -6.26930641e-03,\n",
+       "                        1.01680579e-02, -6.34323061e-03, -1.30798426e-02,  7.55766826e-03,\n",
+       "                       -2.14310363e-02,  9.08778515e-03, -8.65524448e-03, -2.03824677e-02,\n",
+       "                        5.15212771e-03, -2.98910979e-02, -9.82086174e-03, -1.11866295e-02],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (layer_2): Dense(\n",
+       "                192, activation=linear, use_bias=True\n",
+       "                (kernel): <tf.Variable 'transformer/layer_._2/ff/layer_2/kernel:0' shape=(768, 192) dtype=float32, numpy=\n",
+       "                array([[ 0.0154759 , -0.02576332,  0.00404997, ..., -0.00521126,\n",
+       "                         0.04450608, -0.00370239],\n",
+       "                       [ 0.00077567,  0.00834506,  0.0076329 , ..., -0.00815574,\n",
+       "                         0.01575315,  0.00813787],\n",
+       "                       [-0.00243796, -0.02777552,  0.01094132, ...,  0.0040098 ,\n",
+       "                        -0.02047189,  0.00089158],\n",
+       "                       ...,\n",
+       "                       [ 0.00186367, -0.00701796,  0.00757268, ..., -0.01737169,\n",
+       "                         0.01926775,  0.02416652],\n",
+       "                       [-0.0084    ,  0.01725122,  0.00900519, ..., -0.01708463,\n",
+       "                        -0.00909884,  0.00487233],\n",
+       "                       [ 0.0065397 ,  0.02798023, -0.02916992, ..., -0.01719729,\n",
+       "                        -0.01533843, -0.01666596]], dtype=float32)>\n",
+       "                (bias): <tf.Variable 'transformer/layer_._2/ff/layer_2/bias:0' shape=(192,) dtype=float32, numpy=\n",
+       "                array([-3.23106279e-03,  2.73664594e-02,  5.38272317e-03,  5.71309309e-03,\n",
+       "                       -5.46634896e-04,  2.22013704e-03,  1.49773974e-02,  6.20168494e-03,\n",
+       "                       -8.19513667e-03,  2.82500382e-03, -1.69281359e-03,  8.09140690e-03,\n",
+       "                        3.99489095e-03, -1.23743759e-02, -1.45957735e-03,  9.94037371e-04,\n",
+       "                       -1.37627004e-02,  1.07092829e-03, -5.37764840e-03,  3.85741843e-03,\n",
+       "                       -1.25507563e-02, -2.63025658e-03, -2.56949551e-02, -1.47574842e-02,\n",
+       "                        1.66687154e-04,  6.83812471e-03,  5.22116423e-02,  4.76287492e-03,\n",
+       "                       -3.54400068e-03, -1.00526242e-02,  2.67302711e-03, -1.34961177e-02,\n",
+       "                        5.71534550e-03,  3.44656815e-04,  1.13983816e-02,  8.33609665e-04,\n",
+       "                        8.16243992e-05, -2.91870069e-03,  9.16961674e-03,  8.43085442e-03,\n",
+       "                        1.26124052e-02,  1.13547873e-03, -3.07413051e-03,  2.48491345e-03,\n",
+       "                       -1.02426969e-02, -7.00559095e-03,  1.00655975e-02,  5.83268981e-03,\n",
+       "                       -6.40235841e-03, -8.73017404e-03,  4.41089040e-03,  6.57710135e-02,\n",
+       "                        5.91188378e-04, -1.16737140e-03,  1.76836830e-02, -4.21638973e-02,\n",
+       "                        6.11289032e-03,  8.90626106e-03,  1.19158467e-02,  1.66966897e-02,\n",
+       "                       -1.35008171e-02, -2.18302105e-03, -3.30431946e-03,  5.49627980e-03,\n",
+       "                        5.10760397e-03,  4.36130771e-03, -9.61869257e-04,  6.56712474e-03,\n",
+       "                       -1.29337963e-02,  1.73818931e-04, -1.06565338e-02, -5.65454597e-04,\n",
+       "                        1.05172284e-02,  6.07373519e-03,  1.60178151e-02,  9.54098534e-04,\n",
+       "                       -1.52010552e-03,  2.04758998e-03,  3.65826790e-03, -1.61308097e-03,\n",
+       "                        2.04016408e-03, -7.15899467e-03,  1.57644860e-02,  6.89404318e-03,\n",
+       "                       -4.98051429e-03,  1.36183444e-02, -1.11078545e-02,  4.77834139e-03,\n",
+       "                       -4.08890983e-03,  1.22761610e-03, -9.72687174e-03, -5.43426862e-03,\n",
+       "                        5.72868623e-03,  8.23560078e-03,  4.25088033e-03,  6.56040898e-03,\n",
+       "                       -3.73540749e-03, -3.67505592e-04, -6.93008397e-03, -1.10439491e-02,\n",
+       "                        8.99555255e-03,  6.78608799e-03, -7.05241458e-03,  7.07072672e-03,\n",
+       "                       -7.77672278e-03, -3.20137828e-03,  5.53456182e-03,  8.69403780e-03,\n",
+       "                       -1.13175549e-02, -5.58375381e-03,  6.87037455e-03, -2.86886329e-03,\n",
+       "                       -1.47898463e-04,  4.64210461e-04, -6.16162084e-03, -1.36557659e-02,\n",
+       "                       -4.64734476e-04, -4.29263618e-03,  6.91230502e-03, -5.49995806e-03,\n",
+       "                        9.66041908e-03,  1.89107824e-02, -1.48586435e-02,  4.66622040e-03,\n",
+       "                        1.02710119e-02, -1.66305453e-02, -2.60800426e-03,  8.97507928e-03,\n",
+       "                        5.57979196e-03, -2.39700079e-03, -1.73408762e-02,  1.57802075e-03,\n",
+       "                        1.15453843e-02,  8.51698406e-03, -4.36798483e-03,  4.39273892e-03,\n",
+       "                       -2.21885880e-03, -1.43881072e-03,  1.14703132e-02,  5.67898387e-03,\n",
+       "                        2.75588818e-02, -1.64260734e-02,  6.63370965e-03, -5.56223327e-03,\n",
+       "                        2.42191995e-03, -1.73986191e-05, -3.89044464e-04,  4.85858833e-03,\n",
+       "                       -2.88667362e-02, -3.83435516e-04, -4.46539326e-03, -1.61635950e-02,\n",
+       "                       -1.60189755e-02, -1.93839613e-03, -1.38700102e-03, -7.39473943e-03,\n",
+       "                       -1.59791298e-03, -2.43104156e-03, -1.48518628e-03,  4.69057634e-03,\n",
+       "                        3.67661822e-04,  3.24303773e-03,  1.47970812e-03,  9.79221240e-03,\n",
+       "                        2.07747985e-03, -5.47263399e-02, -5.85918222e-03, -4.91376314e-03,\n",
+       "                        1.10718114e-02,  1.01551022e-02, -6.17357669e-03, -3.52678960e-03,\n",
+       "                       -1.31586101e-04, -8.31523817e-03, -2.64230114e-03,  7.03247543e-03,\n",
+       "                        1.19563367e-03, -6.30529178e-03, -1.12440642e-02, -2.18651537e-02,\n",
+       "                       -7.47868512e-03, -5.54595143e-03,  4.21872549e-03,  1.38848219e-02,\n",
+       "                        2.71460065e-03,  1.52492069e-03,  3.42028355e-03, -6.87557925e-03,\n",
+       "                       -7.84489699e-03, -7.98486359e-03,  1.17302900e-02, -1.24362262e-03],\n",
+       "                      dtype=float32)>\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (dropout): Dropout(\n",
+       "                (_feature_shapes): Dict()\n",
+       "                (_feature_dtypes): Dict()\n",
+       "              )\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (dropout): Dropout(\n",
+       "              (_feature_shapes): Dict()\n",
+       "              (_feature_dtypes): Dict()\n",
+       "            )\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (dropout): Dropout(\n",
+       "          (_feature_shapes): Dict()\n",
+       "          (_feature_dtypes): Dict()\n",
+       "        )\n",
+       "        (_kwargs): Dict(\n",
+       "          (name): 'transformer'\n",
+       "          (trainable): True\n",
+       "          (dtype): 'float32'\n",
+       "        )\n",
+       "        (mask_emb): <tf.Variable 'model/mask_emb:0' shape=(1, 1, 192) dtype=float32, numpy=\n",
+       "        array([[[ 5.77921560e-03, -3.88921052e-03, -1.54703399e-02,\n",
+       "                  2.71260552e-03, -1.17281987e-03,  5.64246718e-03,\n",
+       "                 -1.62475388e-02, -1.30641898e-02, -9.67620593e-03,\n",
+       "                 -6.53728191e-03,  3.22625809e-03, -1.81555804e-02,\n",
+       "                 -7.86489749e-04,  1.00607835e-02, -6.77544205e-03,\n",
+       "                  6.74685044e-03, -1.41329011e-02,  1.02585871e-02,\n",
+       "                 -7.28685991e-04,  4.03142069e-03,  4.39096242e-04,\n",
+       "                 -4.50375676e-03,  1.21658696e-02, -1.32050067e-02,\n",
+       "                  1.09916562e-02, -9.18584689e-03,  1.58825647e-02,\n",
+       "                  6.07908377e-03, -4.47684480e-03,  1.18370922e-02,\n",
+       "                  1.15364771e-02, -3.48201720e-03,  1.25706978e-02,\n",
+       "                  1.18793100e-02, -7.91663118e-03, -5.18830167e-03,\n",
+       "                  1.16801783e-02,  1.23153096e-02,  1.45396972e-02,\n",
+       "                  4.84432047e-03, -1.39967902e-02, -7.34205171e-03,\n",
+       "                  6.88960496e-03, -4.80244606e-04, -3.73701565e-03,\n",
+       "                  2.92954943e-03,  5.28011005e-03, -1.43642398e-02,\n",
+       "                 -6.49388321e-03,  1.76820136e-03,  3.69729172e-03,\n",
+       "                  4.42247279e-03,  2.65734154e-03,  6.91311387e-03,\n",
+       "                  7.37582054e-03, -9.37604997e-03, -9.55958012e-03,\n",
+       "                  4.59122658e-03, -2.61855032e-03, -5.45106921e-03,\n",
+       "                 -2.24188925e-03, -1.47799598e-02,  1.99776878e-05,\n",
+       "                  1.44798942e-02,  4.12537856e-03, -1.03824753e-02,\n",
+       "                  1.49776665e-02, -1.27608450e-02,  1.58145204e-02,\n",
+       "                 -2.67113117e-03,  4.71693324e-03,  1.32525072e-03,\n",
+       "                  1.17467521e-02,  2.54606898e-03, -1.87330123e-03,\n",
+       "                 -1.63365975e-02,  1.25660775e-02,  4.72261745e-04,\n",
+       "                 -3.24072596e-03, -5.67087578e-03,  2.84392014e-03,\n",
+       "                 -9.57878365e-04,  4.79734456e-03, -3.40607972e-03,\n",
+       "                 -1.56934485e-02,  1.30519662e-02, -1.08772153e-02,\n",
+       "                 -1.45522840e-02,  1.02441367e-02, -1.09306127e-02,\n",
+       "                 -1.52621465e-02, -8.02758988e-03, -1.70116369e-02,\n",
+       "                  2.46132608e-03,  9.62964911e-03,  1.14286207e-02,\n",
+       "                  1.36147542e-02, -3.05876276e-03, -1.05851013e-02,\n",
+       "                  1.15959544e-03,  6.59532519e-03, -3.13923717e-03,\n",
+       "                  9.85705387e-03, -3.61493230e-03,  3.47581925e-03,\n",
+       "                 -9.08834487e-03,  4.82335308e-04,  1.37247914e-03,\n",
+       "                 -3.50609160e-04, -3.27813323e-03, -5.61682682e-04,\n",
+       "                 -1.22349560e-02, -5.72275929e-03,  7.51505466e-03,\n",
+       "                  1.81504886e-03,  1.19993566e-02,  8.24969495e-04,\n",
+       "                  8.65781913e-04, -1.57240516e-04,  1.39818722e-02,\n",
+       "                 -1.75076891e-02, -3.13527836e-03,  8.43182299e-03,\n",
+       "                 -3.18556733e-04,  2.53572455e-03, -2.53666658e-03,\n",
+       "                  1.31535046e-02,  8.38572159e-03, -6.97441213e-03,\n",
+       "                  1.84246916e-02, -6.73079258e-03,  1.49125131e-02,\n",
+       "                 -9.80807841e-03, -6.67121494e-03, -4.32675099e-03,\n",
+       "                  8.86392372e-04,  1.13881696e-02, -3.64286243e-03,\n",
+       "                 -1.27661536e-02,  5.76637033e-03, -1.87941324e-02,\n",
+       "                 -6.02238160e-03, -1.03929741e-02, -8.80926661e-03,\n",
+       "                 -3.80813982e-03,  9.45396535e-03, -1.88170914e-02,\n",
+       "                  8.08288343e-03, -1.36293136e-02,  7.88161159e-03,\n",
+       "                 -9.55417287e-03,  6.48603542e-03,  4.02289443e-03,\n",
+       "                  6.29892433e-03, -4.87634493e-03,  9.85367782e-03,\n",
+       "                 -1.36604840e-02,  1.20045419e-03,  7.17868144e-03,\n",
+       "                  3.35687096e-03, -1.46159260e-02,  1.09550674e-02,\n",
+       "                 -1.39297824e-02, -2.44791643e-03,  1.03627667e-02,\n",
+       "                 -1.55246304e-02,  4.99522220e-03, -6.11118600e-03,\n",
+       "                 -9.54537187e-03,  1.51828043e-02, -5.09335613e-03,\n",
+       "                  4.23298730e-03, -1.82825513e-02,  6.68561691e-03,\n",
+       "                 -1.18543836e-03,  4.25768830e-03, -6.68309815e-03,\n",
+       "                 -3.44021083e-03,  6.31043361e-03, -6.84611080e-03,\n",
+       "                  3.71403666e-03,  1.25054484e-02, -2.05762568e-03,\n",
+       "                 -2.28846306e-03, -7.55040813e-03,  7.25472951e-03,\n",
+       "                  3.65318428e-03, -6.14711316e-03, -1.25991441e-02,\n",
+       "                  2.10878160e-03,  9.57752764e-03,  3.22542666e-03]]],\n",
+       "              dtype=float32)>\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_pre): PrepareTransformerInputs(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (transformer_post): LastHiddenState(\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_post): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): TransformerOutputToRagged(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): TransformerInferenceHiddenState(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_masking_pre): SequentialBlock(\n",
+       "        (layers): List(\n",
+       "          (0): SequenceCausalLastInference(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "          (1): ExtractMaskFromTargets(\n",
+       "            (_feature_shapes): Dict()\n",
+       "            (_feature_dtypes): Dict()\n",
+       "          )\n",
+       "        )\n",
+       "        (_feature_shapes): Dict()\n",
+       "        (_feature_dtypes): Dict()\n",
+       "      )\n",
+       "      (_feature_shapes): Dict()\n",
+       "      (_feature_dtypes): Dict()\n",
+       "    )\n",
+       "  )\n",
+       "  (signatures): _SignatureMap({'serving_default': <ConcreteFunction signature_wrapper(*, sess_pid_seq__offsets, sess_pid_seq__values) at 0x7F05689FFFA0>})\n",
+       ")"
+      ]
+     },
+     "execution_count": 16,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.load('t4rec_model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "4c62973a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.loader.tensorflow import Loader"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "e5db703a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "loader = Loader(valid, batch_size=1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "e11f107c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "it = iter(loader)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "c216e7fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "while True:\n",
+    "    b = next(it)\n",
+    "    if b[0]['sess_pid_seq__offsets'].numpy()[1] == 20:\n",
+    "        break"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "ea436b46",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "({'sess_pid_seq__values': <tf.Tensor: shape=(20,), dtype=int32, numpy=\n",
+       "  array([ 204,  242,  501, 1108, 1821, 1700,  492,  682, 2250, 2581, 2477,\n",
+       "         1428, 1476, 2372, 2032, 3310, 8668, 6113, 2852, 6113], dtype=int32)>,\n",
+       "  'sess_pid_seq__offsets': <tf.Tensor: shape=(2,), dtype=int64, numpy=array([ 0, 20])>},\n",
+       " None)"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "b"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "id": "f2c36d75",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "618 ms ± 3.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%timeit\n",
+    "\n",
+    "model_transformer(b[0])"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/T4Rec_repro/train_and_save_model_for_benchmarking_works.ipynb b/T4Rec_repro/train_and_save_model_for_benchmarking_works.ipynb
new file mode 100644
index 0000000000..1db5d4a103
--- /dev/null
+++ b/T4Rec_repro/train_and_save_model_for_benchmarking_works.ipynb
@@ -0,0 +1,1492 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "026bd245",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/core\n",
+      "   9d9b5c6a..c5c9bc25 release-23.04       -> origin/release-23.04\n",
+      " * [new branch]      feature/merlin-array-dispatch -> origin/feature/merlin-array-dispatch\n",
+      " * [new branch]      fix-repartition     -> origin/fix-repartition\n",
+      " * [new branch]      fix-with-properties -> origin/fix-with-properties\n",
+      " * [new branch]      gh-pages            -> origin/gh-pages\n",
+      " * [new branch]      laiacano/docs-on-pr -> origin/laiacano/docs-on-pr\n",
+      " * [new branch]      main                -> origin/main\n",
+      " * [new branch]      release-22.10       -> origin/release-22.10\n",
+      " * [new branch]      release-22.11       -> origin/release-22.11\n",
+      " * [new branch]      release-22.12       -> origin/release-22.12\n",
+      " * [new branch]      release-23.02       -> origin/release-23.02\n",
+      " * [new branch]      revert-163-refactor/dictarray-columns -> origin/revert-163-refactor/dictarray-columns\n",
+      " * [new branch]      stable              -> origin/stable\n",
+      " * [new branch]      tags-intersection   -> origin/tags-intersection\n",
+      " * [new branch]      v0.2.0-docs         -> origin/v0.2.0-docs\n",
+      " * [new tag]         v0.10.0             -> v0.10.0\n",
+      " * [new tag]         v0.8.0              -> v0.8.0\n",
+      " * [new tag]         v0.9.0              -> v0.9.0\n",
+      " * [new tag]         v23.02.01           -> v23.02.01\n",
+      " * [new tag]           v0.1.0              -> v0.1.0\n",
+      " * [new tag]           v0.1.1              -> v0.1.1\n",
+      " * [new tag]           v0.2.0              -> v0.2.0\n",
+      " * [new tag]           v0.3.0              -> v0.3.0\n",
+      " * [new tag]           v0.4.0              -> v0.4.0\n",
+      " * [new tag]           v0.5.0              -> v0.5.0\n",
+      " * [new tag]           v0.6.0              -> v0.6.0\n",
+      " * [new tag]           v0.7.0              -> v0.7.0\n",
+      " * [new tag]           v23.02.00           -> v23.02.00\n",
+      " * [new tag]           v23.05.dev0         -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /core\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-core\n",
+      "  Building wheel for merlin-core (PEP 517): started\n",
+      "  Building wheel for merlin-core (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-core: filename=merlin_core-23.5.dev0+21.ga0bcd30f-py3-none-any.whl size=161483 sha256=f76af8b2b454279185f67a9fcbb363f76377403bbbd578cfab87cad51461502e\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-zpysgkae/wheels/8f/da/8c/c779661788874afaa32fd10abeac6016635956e3bad9940584\n",
+      "Successfully built merlin-core\n",
+      "Installing collected packages: merlin-core\n",
+      "  Attempting uninstall: merlin-core\n",
+      "    Found existing installation: merlin-core 23.4.0\n",
+      "    Uninstalling merlin-core-23.4.0:\n",
+      "      Successfully uninstalled merlin-core-23.4.0\n",
+      "Successfully installed merlin-core-23.5.dev0+21.ga0bcd30f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/dataloader\n",
+      " * [new branch]      chore/comprehensive-shapes -> origin/chore/comprehensive-shapes\n",
+      " * [new branch]      chore/packages-action  -> origin/chore/packages-action\n",
+      " * [new branch]      collabify_examples     -> origin/collabify_examples\n",
+      " * [new branch]      docs-add-seo           -> origin/docs-add-seo\n",
+      " * [new branch]      docs-calver-banner     -> origin/docs-calver-banner\n",
+      " * [new branch]      ds-api                 -> origin/ds-api\n",
+      " * [new branch]      feature/embedding-tags -> origin/feature/embedding-tags\n",
+      " * [new branch]      fix-sparse-logic       -> origin/fix-sparse-logic\n",
+      " * [new branch]      fix/tf-batch-size-warning -> origin/fix/tf-batch-size-warning\n",
+      " * [new branch]      gh-pages               -> origin/gh-pages\n",
+      " * [new branch]      gha-test               -> origin/gha-test\n",
+      " * [new branch]      laiacano/docs-pr       -> origin/laiacano/docs-pr\n",
+      " * [new branch]      main                   -> origin/main\n",
+      " * [new branch]      no_gpu                 -> origin/no_gpu\n",
+      " * [new branch]      release-22.11          -> origin/release-22.11\n",
+      " * [new branch]      release-22.12          -> origin/release-22.12\n",
+      " * [new branch]      release-23.02          -> origin/release-23.02\n",
+      " * [new branch]      stable                 -> origin/stable\n",
+      " * [new branch]      update_github_actions  -> origin/update_github_actions\n",
+      " * [new tag]         v0.0.3                 -> v0.0.3\n",
+      " * [new tag]         v0.0.4                 -> v0.0.4\n",
+      " * [new tag]         v23.02.01              -> v23.02.01\n",
+      " * [new tag]         v0.0.1                 -> v0.0.1\n",
+      " * [new tag]         v0.0.2                 -> v0.0.2\n",
+      " * [new tag]         v23.02.00              -> v23.02.00\n",
+      " * [new tag]         v23.05.dev0            -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /dataloader\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-dataloader\n",
+      "  Building wheel for merlin-dataloader (PEP 517): started\n",
+      "  Building wheel for merlin-dataloader (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-dataloader: filename=merlin_dataloader-23.5.dev0+8.gd9e97b4-py3-none-any.whl size=34916 sha256=a53d8e72c09517b5035a17039957847870bda00e432060ad7c5049d7b7ec5d29\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-un9trbg4/wheels/8c/19/5b/15dc04f5a977f6a7f73ed66c91996a687b1d9e3154a4765536\n",
+      "Successfully built merlin-dataloader\n",
+      "Installing collected packages: merlin-dataloader\n",
+      "  Attempting uninstall: merlin-dataloader\n",
+      "    Found existing installation: merlin-dataloader 23.4.0\n",
+      "    Uninstalling merlin-dataloader-23.4.0:\n",
+      "      Successfully uninstalled merlin-dataloader-23.4.0\n",
+      "Successfully installed merlin-dataloader-23.5.dev0+8.gd9e97b4\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/NVTabular\n",
+      "   f8f484e5..90489194 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      1077-implement          -> origin/1077-implement\n",
+      " * [new branch]      21.09/column-tagging    -> origin/21.09/column-tagging\n",
+      " * [new branch]      21.09/dataset-collection -> origin/21.09/dataset-collection\n",
+      " * [new branch]      21.09/operator-block    -> origin/21.09/operator-block\n",
+      " * [new branch]      21.09/schema            -> origin/21.09/schema\n",
+      " * [new branch]      add_sum_to_supported_aggregations -> origin/add_sum_to_supported_aggregations\n",
+      " * [new branch]      aiobotocore_v2          -> origin/aiobotocore_v2\n",
+      " * [new branch]      alexanderronquillo-patch-1 -> origin/alexanderronquillo-patch-1\n",
+      " * [new branch]      automate_pypi           -> origin/automate_pypi\n",
+      " * [new branch]      bench-pynvml-fix        -> origin/bench-pynvml-fix\n",
+      " * [new branch]      branch-0.6              -> origin/branch-0.6\n",
+      " * [new branch]      bschifferer-remove_examples_1 -> origin/bschifferer-remove_examples_1\n",
+      " * [new branch]      categorify-inference-int16 -> origin/categorify-inference-int16\n",
+      " * [new branch]      columns_with_aggs_in_names -> origin/columns_with_aggs_in_names\n",
+      " * [new branch]      conda-package-python-versions -> origin/conda-package-python-versions\n",
+      " * [new branch]      conda_gh_action         -> origin/conda_gh_action\n",
+      " * [new branch]      dataloader-remove-sparse -> origin/dataloader-remove-sparse\n",
+      " * [new branch]      dataloader_doc_fix      -> origin/dataloader_doc_fix\n",
+      " * [new branch]      disable-package-build-on-pull-requests -> origin/disable-package-build-on-pull-requests\n",
+      " * [new branch]      dont_install_tests      -> origin/dont_install_tests\n",
+      " * [new branch]      drop_low_cardinality    -> origin/drop_low_cardinality\n",
+      " * [new branch]      fix-docs-tox-env        -> origin/fix-docs-tox-env\n",
+      " * [new branch]      fix-wf-file             -> origin/fix-wf-file\n",
+      " * [new branch]      fix/inference-deprecation -> origin/fix/inference-deprecation\n",
+      " * [new branch]      fix_data_path           -> origin/fix_data_path\n",
+      " * [new branch]      fix_hugectr_nb          -> origin/fix_hugectr_nb\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      groupby_without_groupby_col_in_col_selector -> origin/groupby_without_groupby_col_in_col_selector\n",
+      " * [new branch]      hugectr-newapi          -> origin/hugectr-newapi\n",
+      " * [new branch]      laiacano/check-list-from-schema -> origin/laiacano/check-list-from-schema\n",
+      " * [new branch]      laiacano/workflow-subgraph -> origin/laiacano/workflow-subgraph\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      na_sentinel             -> origin/na_sentinel\n",
+      " * [new branch]      notebooks-21.10         -> origin/notebooks-21.10\n",
+      " * [new branch]      nvt-1195                -> origin/nvt-1195\n",
+      " * [new branch]      nvtabular_examples      -> origin/nvtabular_examples\n",
+      " * [new branch]      packages-workflow-split -> origin/packages-workflow-split\n",
+      " * [new branch]      readme_updates          -> origin/readme_updates\n",
+      " * [new branch]      refactor/fit-schema     -> origin/refactor/fit-schema\n",
+      " * [new branch]      refactor/input-column-selection -> origin/refactor/input-column-selection\n",
+      " * [new branch]      refactor/postpone-schema-binding -> origin/refactor/postpone-schema-binding\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      remove_poetry           -> origin/remove_poetry\n",
+      " * [new branch]      remove_release_notes    -> origin/remove_release_notes\n",
+      " * [new branch]      repeat-ops              -> origin/repeat-ops\n",
+      " * [new branch]      rjzamora-simplify-criteo -> origin/rjzamora-simplify-criteo\n",
+      " * [new branch]      rnyak-patch-1           -> origin/rnyak-patch-1\n",
+      " * [new branch]      romeyn/input-api        -> origin/romeyn/input-api\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      test-column-similarity-dataset-cpu-default-none -> origin/test-column-similarity-dataset-cpu-default-none\n",
+      " * [new branch]      test-torch-dataloader-dataset-cpu-default-none -> origin/test-torch-dataloader-dataset-cpu-default-none\n",
+      " * [new branch]      torch_catch             -> origin/torch_catch\n",
+      " * [new branch]      update-dask-reqs        -> origin/update-dask-reqs\n",
+      " * [new branch]      update_merlin_core      -> origin/update_merlin_core\n",
+      " * [new branch]      update_requirements     -> origin/update_requirements\n",
+      " * [new branch]      v0.10.0-docs            -> origin/v0.10.0-docs\n",
+      " * [new branch]      v0.11.0-docs            -> origin/v0.11.0-docs\n",
+      " * [new branch]      v0.7.1-docs             -> origin/v0.7.1-docs\n",
+      " * [new branch]      v0.8.0-docs             -> origin/v0.8.0-docs\n",
+      " * [new branch]      v0.9.0-docs             -> origin/v0.9.0-docs\n",
+      " * [new branch]      v1.0.0-docs             -> origin/v1.0.0-docs\n",
+      " * [new tag]         v0.6.1                  -> v0.6.1\n",
+      " * [new tag]         v1.6.0                  -> v1.6.0\n",
+      " * [new tag]         v1.7.0                  -> v1.7.0\n",
+      " * [new tag]         v1.8.1                  -> v1.8.1\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.10.0                 -> v0.10.0\n",
+      " * [new tag]           v0.11.0                 -> v0.11.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n",
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.5.1                  -> v0.5.1\n",
+      " * [new tag]           v0.5.2                  -> v0.5.2\n",
+      " * [new tag]           v0.5.3                  -> v0.5.3\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.7.1                  -> v0.7.1\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v0.9.0                  -> v0.9.0\n",
+      " * [new tag]           v1.0.0                  -> v1.0.0\n",
+      " * [new tag]           v1.1.0                  -> v1.1.0\n",
+      " * [new tag]           v1.1.1                  -> v1.1.1\n",
+      " * [new tag]           v1.2.0                  -> v1.2.0\n",
+      " * [new tag]           v1.2.1                  -> v1.2.1\n",
+      " * [new tag]           v1.2.2                  -> v1.2.2\n",
+      " * [new tag]           v1.3.0                  -> v1.3.0\n",
+      " * [new tag]           v1.3.1                  -> v1.3.1\n",
+      " * [new tag]           v1.3.2                  -> v1.3.2\n",
+      " * [new tag]           v1.3.3                  -> v1.3.3\n",
+      " * [new tag]           v1.4.0                  -> v1.4.0\n",
+      " * [new tag]           v1.5.0                  -> v1.5.0\n",
+      " * [new tag]           v1.8.0                  -> v1.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /nvtabular\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: nvtabular\n",
+      "  Building wheel for nvtabular (PEP 517): started\n",
+      "  Building wheel for nvtabular (PEP 517): finished with status 'done'\n",
+      "  Created wheel for nvtabular: filename=nvtabular-23.5.dev0+7.g67136eba-cp38-cp38-linux_x86_64.whl size=259925 sha256=197d7ba28258dad52e99289d9cb6f1821a54930776ae97c8812b316108857063\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-mpy75mx7/wheels/df/bf/c2/9cc2a62fe6da42038c26a9c0c4e25f9767093528b102fa30a2\n",
+      "Successfully built nvtabular\n",
+      "Installing collected packages: nvtabular\n",
+      "  Attempting uninstall: nvtabular\n",
+      "    Found existing installation: nvtabular 23.4.0\n",
+      "    Uninstalling nvtabular-23.4.0:\n",
+      "      Successfully uninstalled nvtabular-23.4.0\n",
+      "Successfully installed nvtabular-23.5.dev0+7.g67136eba\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Models\n",
+      "   a44eced6..56c7d6a4 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      Mai                     -> origin/Mai\n",
+      " * [new branch]      add_category_encoding_test -> origin/add_category_encoding_test\n",
+      " * [new branch]      add_lightfm_and_explicit_training_example -> origin/add_lightfm_and_explicit_training_example\n",
+      " * [new branch]      add_logo_tracking_to_07 -> origin/add_logo_tracking_to_07\n",
+      " * [new branch]      add_notebooks_test      -> origin/add_notebooks_test\n",
+      " * [new branch]      advanced_example        -> origin/advanced_example\n",
+      " * [new branch]      asvdb_metric_tracking   -> origin/asvdb_metric_tracking\n",
+      " * [new branch]      batched-dataset/schema  -> origin/batched-dataset/schema\n",
+      " * [new branch]      benchmark-session-based -> origin/benchmark-session-based\n",
+      " * [new branch]      block-context           -> origin/block-context\n",
+      " * [new branch]      blossom_report_skipped  -> origin/blossom_report_skipped\n",
+      " * [new branch]      break_ties              -> origin/break_ties\n",
+      " * [new branch]      bs_unittest_examples_v2 -> origin/bs_unittest_examples_v2\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      change_two_tower_api_test -> origin/change_two_tower_api_test\n",
+      " * [new branch]      ci/backend-tests        -> origin/ci/backend-tests\n",
+      " * [new branch]      ci/example-linting      -> origin/ci/example-linting\n",
+      " * [new branch]      ci/horovod              -> origin/ci/horovod\n",
+      " * [new branch]      cicd                    -> origin/cicd\n",
+      " * [new branch]      codespell_fix           -> origin/codespell_fix\n",
+      " * [new branch]      compare_ranking_models  -> origin/compare_ranking_models\n",
+      " * [new branch]      conda_recipe            -> origin/conda_recipe\n",
+      " * [new branch]      consolidate-abstractions -> origin/consolidate-abstractions\n",
+      " * [new branch]      dataloader_tag_fix      -> origin/dataloader_tag_fix\n",
+      " * [new branch]      dcn_tests               -> origin/dcn_tests\n",
+      " * [new branch]      deps/merlin-core-commit -> origin/deps/merlin-core-commit\n",
+      " * [new branch]      docs-strings            -> origin/docs-strings\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      emb_export_fix          -> origin/emb_export_fix\n",
+      " * [new branch]      evaluate_fixes          -> origin/evaluate_fixes\n",
+      " * [new branch]      examples/unit-tests     -> origin/examples/unit-tests\n",
+      " * [new branch]      examples/update_link    -> origin/examples/update_link\n",
+      " * [new branch]      examples_fixes          -> origin/examples_fixes\n",
+      " * [new branch]      fea-sok-integration-wj  -> origin/fea-sok-integration-wj\n",
+      " * [new branch]      fea-sok-load-dump       -> origin/fea-sok-load-dump\n",
+      " * [new branch]      feature/multi-hot-columns -> origin/feature/multi-hot-columns\n",
+      " * [new branch]      feature/retrieval-dnn   -> origin/feature/retrieval-dnn\n",
+      " * [new branch]      fix-contrastive-predictions -> origin/fix-contrastive-predictions\n",
+      " * [new branch]      fix/aliccp_workflow     -> origin/fix/aliccp_workflow\n",
+      " * [new branch]      fix/batch_predict       -> origin/fix/batch_predict\n",
+      " * [new branch]      fix/example-tests       -> origin/fix/example-tests\n",
+      " * [new branch]      fix/python-version      -> origin/fix/python-version\n",
+      " * [new branch]      fix/shared_embeddings   -> origin/fix/shared_embeddings\n",
+      " * [new branch]      fix_aliccp_schema       -> origin/fix_aliccp_schema\n",
+      " * [new branch]      fix_cated_ohe           -> origin/fix_cated_ohe\n",
+      " * [new branch]      fix_datetime_issue_add_inference_on_TIS -> origin/fix_datetime_issue_add_inference_on_TIS\n",
+      " * [new branch]      fix_lightfm_evaluate    -> origin/fix_lightfm_evaluate\n",
+      " * [new branch]      fix_masking             -> origin/fix_masking\n",
+      " * [new branch]      fix_mtl_metrics         -> origin/fix_mtl_metrics\n",
+      " * [new branch]      fix_notebooks           -> origin/fix_notebooks\n",
+      " * [new branch]      fix_regression          -> origin/fix_regression\n",
+      " * [new branch]      fix_retrieval           -> origin/fix_retrieval\n",
+      " * [new branch]      fix_retrieval_eval_loss -> origin/fix_retrieval_eval_loss\n",
+      " * [new branch]      fix_sampled_softmax_evaluation -> origin/fix_sampled_softmax_evaluation\n",
+      " * [new branch]      fix_test_07             -> origin/fix_test_07\n",
+      " * [new branch]      getting_started_exp     -> origin/getting_started_exp\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      hashed_cross_test       -> origin/hashed_cross_test\n",
+      " * [new branch]      implement_review_comments -> origin/implement_review_comments\n",
+      " * [new branch]      in-bath-sampling-bug    -> origin/in-bath-sampling-bug\n",
+      " * [new branch]      infer_embeddings        -> origin/infer_embeddings\n",
+      " * [new branch]      inference_benchmarking_transformers -> origin/inference_benchmarking_transformers\n",
+      " * [new branch]      laiacano/concurrency    -> origin/laiacano/concurrency\n",
+      " * [new branch]      laiacano/tox            -> origin/laiacano/tox\n",
+      " * [new branch]      layer_freezing_test     -> origin/layer_freezing_test\n",
+      " * [new branch]      load_retrieval_model    -> origin/load_retrieval_model\n",
+      " * [new branch]      logit_correction_nol2_temp -> origin/logit_correction_nol2_temp\n",
+      " * [new branch]      losses                  -> origin/losses\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_transforms      -> origin/masking_transforms\n",
+      " * [new branch]      merlin-standard-lib     -> origin/merlin-standard-lib\n",
+      " * [new branch]      metrics_opt             -> origin/metrics_opt\n",
+      " * [new branch]      metrics_opt2            -> origin/metrics_opt2\n",
+      " * [new branch]      mikemckiernan-patch-1   -> origin/mikemckiernan-patch-1\n",
+      " * [new branch]      mlm                     -> origin/mlm\n",
+      " * [new branch]      mlm_alt                 -> origin/mlm_alt\n",
+      " * [new branch]      mlp_selu                -> origin/mlp_selu\n",
+      " * [new branch]      mrr_fix                 -> origin/mrr_fix\n",
+      " * [new branch]      mtl_example             -> origin/mtl_example\n",
+      " * [new branch]      mtl_loss                -> origin/mtl_loss\n",
+      " * [new branch]      mtl_models              -> origin/mtl_models\n",
+      " * [new branch]      mtl_regularization      -> origin/mtl_regularization\n",
+      " * [new branch]      multi_optimizer_example -> origin/multi_optimizer_example\n",
+      " * [new branch]      neg_sampling            -> origin/neg_sampling\n",
+      " * [new branch]      poc                     -> origin/poc\n",
+      " * [new branch]      pretrained_init         -> origin/pretrained_init\n",
+      " * [new branch]      radekosmulski-patch-2   -> origin/radekosmulski-patch-2\n",
+      " * [new branch]      ragged_embeddings       -> origin/ragged_embeddings\n",
+      " * [new branch]      ranking_models_inputs   -> origin/ranking_models_inputs\n",
+      " * [new branch]      ranking_tests           -> origin/ranking_tests\n",
+      " * [new branch]      ranking_tests3          -> origin/ranking_tests3\n",
+      " * [new branch]      readme_bash             -> origin/readme_bash\n",
+      " * [new branch]      refactor-docs-reqs      -> origin/refactor-docs-reqs\n",
+      " * [new branch]      refactor/docs-reqs      -> origin/refactor/docs-reqs\n",
+      " * [new branch]      refactor/embedding-layers -> origin/refactor/embedding-layers\n",
+      " * [new branch]      refactor/youtube-retrieval -> origin/refactor/youtube-retrieval\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      remove/masking          -> origin/remove/masking\n",
+      " * [new branch]      reset-metrics           -> origin/reset-metrics\n",
+      " * [new branch]      retrieval-sample-weights -> origin/retrieval-sample-weights\n",
+      " * [new branch]      retrieval_debug         -> origin/retrieval_debug\n",
+      " * [new branch]      retrieval_debug_no_l2norm -> origin/retrieval_debug_no_l2norm\n",
+      " * [new branch]      retrieval_debug_scores_temp -> origin/retrieval_debug_scores_temp\n",
+      " * [new branch]      retrieval_eval_fix      -> origin/retrieval_eval_fix\n",
+      " * [new branch]      retrieval_fixes         -> origin/retrieval_fixes\n",
+      " * [new branch]      retrieval_fixes_2       -> origin/retrieval_fixes_2\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new branch]      retrieval_integration_tests -> origin/retrieval_integration_tests\n",
+      " * [new branch]      revert-813-laiacano/tox-and-tmpdir -> origin/revert-813-laiacano/tox-and-tmpdir\n",
+      " * [new branch]      romeyn/block-api        -> origin/romeyn/block-api\n",
+      " * [new branch]      romeyn/block-cleanup    -> origin/romeyn/block-cleanup\n",
+      " * [new branch]      romeyn/inputs           -> origin/romeyn/inputs\n",
+      " * [new branch]      sampling                -> origin/sampling\n",
+      " * [new branch]      select-by-tag           -> origin/select-by-tag\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      t4rec_use_case          -> origin/t4rec_use_case\n",
+      " * [new branch]      tf/add-bokeh-to-dev     -> origin/tf/add-bokeh-to-dev\n",
+      " * [new branch]      tf/base-model-test-graph-mode -> origin/tf/base-model-test-graph-mode\n",
+      " * [new branch]      tf/batch_predict_fix    -> origin/tf/batch_predict_fix\n",
+      " * [new branch]      tf/categorical-prediction -> origin/tf/categorical-prediction\n",
+      " * [new branch]      tf/categorical-prediction-2 -> origin/tf/categorical-prediction-2\n",
+      " * [new branch]      tf/column_sampling_serialization_fix -> origin/tf/column_sampling_serialization_fix\n",
+      " * [new branch]      tf/combinators-base     -> origin/tf/combinators-base\n",
+      " * [new branch]      tf/cond                 -> origin/tf/cond\n",
+      " * [new branch]      tf/context-tensor       -> origin/tf/context-tensor\n",
+      " * [new branch]      tf/continuous_seq_feats_fix -> origin/tf/continuous_seq_feats_fix\n",
+      " * [new branch]      tf/contrastive-prediction -> origin/tf/contrastive-prediction\n",
+      " * [new branch]      tf/core                 -> origin/tf/core\n",
+      " * [new branch]      tf/dataloader_changes   -> origin/tf/dataloader_changes\n",
+      " * [new branch]      tf/dep-prediction-tasks -> origin/tf/dep-prediction-tasks\n",
+      " * [new branch]      tf/dlrm_dropout_fix     -> origin/tf/dlrm_dropout_fix\n",
+      " * [new branch]      tf/dynamic-memory-growth -> origin/tf/dynamic-memory-growth\n",
+      " * [new branch]      tf/embedding-tables     -> origin/tf/embedding-tables\n",
+      " * [new branch]      tf/embeddings_regularization -> origin/tf/embeddings_regularization\n",
+      " * [new branch]      tf/evaluate_retrieval   -> origin/tf/evaluate_retrieval\n",
+      " * [new branch]      tf/fix_broadcast_to_sequence -> origin/tf/fix_broadcast_to_sequence\n",
+      " * [new branch]      tf/fix_logq_correction  -> origin/tf/fix_logq_correction\n",
+      " * [new branch]      tf/fix_mlm_test         -> origin/tf/fix_mlm_test\n",
+      " * [new branch]      tf/fix_tag_item_id      -> origin/tf/fix_tag_item_id\n",
+      " * [new branch]      tf/fix_tests_shared_state -> origin/tf/fix_tests_shared_state\n",
+      " * [new branch]      tf/fix_training_smaller_accuracy -> origin/tf/fix_training_smaller_accuracy\n",
+      " * [new branch]      tf/input-block          -> origin/tf/input-block\n",
+      " * [new branch]      tf/input-block-filter   -> origin/tf/input-block-filter\n",
+      " * [new branch]      tf/inputs-concat        -> origin/tf/inputs-concat\n",
+      " * [new branch]      tf/keras-embedding      -> origin/tf/keras-embedding\n",
+      " * [new branch]      tf/logit_correction     -> origin/tf/logit_correction\n",
+      " * [new branch]      tf/loglossmetric_callbacks -> origin/tf/loglossmetric_callbacks\n",
+      " * [new branch]      tf/logq_correction      -> origin/tf/logq_correction\n",
+      " * [new branch]      tf/loss_batch_metric    -> origin/tf/loss_batch_metric\n",
+      " * [new branch]      tf/map-values           -> origin/tf/map-values\n",
+      " * [new branch]      tf/masking_block        -> origin/tf/masking_block\n",
+      " * [new branch]      tf/mf-retrieval-model   -> origin/tf/mf-retrieval-model\n",
+      " * [new branch]      tf/mlm-schema           -> origin/tf/mlm-schema\n",
+      " * [new branch]      tf/model-tests          -> origin/tf/model-tests\n",
+      " * [new branch]      tf/model/sequential     -> origin/tf/model/sequential\n",
+      " * [new branch]      tf/move-core            -> origin/tf/move-core\n",
+      " * [new branch]      tf/mtl_example_updates_v2 -> origin/tf/mtl_example_updates_v2\n",
+      " * [new branch]      tf/multi_task_improv    -> origin/tf/multi_task_improv\n",
+      " * [new branch]      tf/ncf_model            -> origin/tf/ncf_model\n",
+      " * [new branch]      tf/output-block         -> origin/tf/output-block\n",
+      " * [new branch]      tf/pop_metrics          -> origin/tf/pop_metrics\n",
+      " * [new branch]      tf/prediction           -> origin/tf/prediction\n",
+      " * [new branch]      tf/prediction-block     -> origin/tf/prediction-block\n",
+      " * [new branch]      tf/pretrained_emb       -> origin/tf/pretrained_emb\n",
+      " * [new branch]      tf/process_list_to_prepare_features -> origin/tf/process_list_to_prepare_features\n",
+      " * [new branch]      tf/pruning-parallel-block -> origin/tf/pruning-parallel-block\n",
+      " * [new branch]      tf/quick_start_ranking  -> origin/tf/quick_start_ranking\n",
+      " * [new branch]      tf/ragged-tensors       -> origin/tf/ragged-tensors\n",
+      " * [new branch]      tf/ranking_metrics_sort -> origin/tf/ranking_metrics_sort\n",
+      " * [new branch]      tf/refactor             -> origin/tf/refactor\n",
+      " * [new branch]      tf/retireval_eval       -> origin/tf/retireval_eval\n",
+      " * [new branch]      tf/retrieval-eval       -> origin/tf/retrieval-eval\n",
+      " * [new branch]      tf/retrieval-model-v2   -> origin/tf/retrieval-model-v2\n",
+      " * [new branch]      tf/retrieval-models     -> origin/tf/retrieval-models\n",
+      " * [new branch]      tf/sampling/items       -> origin/tf/sampling/items\n",
+      " * [new branch]      tf/save-regularizer     -> origin/tf/save-regularizer\n",
+      " * [new branch]      tf/target-propagation   -> origin/tf/target-propagation\n",
+      " * [new branch]      tf/targets              -> origin/tf/targets\n",
+      " * [new branch]      tf/tf-cont-list         -> origin/tf/tf-cont-list\n",
+      " * [new branch]      tf/topk_recommender     -> origin/tf/topk_recommender\n",
+      " * [new branch]      tf/tower-save           -> origin/tf/tower-save\n",
+      " * [new branch]      tf/train_metrics_steps_fix -> origin/tf/train_metrics_steps_fix\n",
+      " * [new branch]      tf/transformer-api      -> origin/tf/transformer-api\n",
+      " * [new branch]      tf/transformer-block    -> origin/tf/transformer-block\n",
+      " * [new branch]      tf/transformer_block    -> origin/tf/transformer_block\n",
+      " * [new branch]      tf/wide_and_deep        -> origin/tf/wide_and_deep\n",
+      " * [new branch]      tf/wrap-as-model        -> origin/tf/wrap-as-model\n",
+      " * [new branch]      tf/xlnet-bug            -> origin/tf/xlnet-bug\n",
+      " * [new branch]      torch/clean-up          -> origin/torch/clean-up\n",
+      " * [new branch]      torch/dev               -> origin/torch/dev\n",
+      " * [new branch]      torch/masking           -> origin/torch/masking\n",
+      " * [new branch]      torch/prototype         -> origin/torch/prototype\n",
+      " * [new branch]      torch/remove-t4r-code   -> origin/torch/remove-t4r-code\n",
+      " * [new branch]      tox_github_actions_fix  -> origin/tox_github_actions_fix\n",
+      " * [new branch]      transformer-api         -> origin/transformer-api\n",
+      " * [new branch]      two_tower_fixes         -> origin/two_tower_fixes\n",
+      " * [new branch]      update_07               -> origin/update_07\n",
+      " * [new branch]      update_advanced_notebook -> origin/update_advanced_notebook\n",
+      " * [new branch]      update_example_01       -> origin/update_example_01\n",
+      " * [new branch]      update_examples_with_tracking_logo -> origin/update_examples_with_tracking_logo\n",
+      " * [new branch]      v0.2.0-docs             -> origin/v0.2.0-docs\n",
+      " * [new branch]      v0.3.0-docs             -> origin/v0.3.0-docs\n",
+      " * [new branch]      validation_data_fix     -> origin/validation_data_fix\n",
+      " * [new branch]      validation_data_fix2    -> origin/validation_data_fix2\n",
+      " * [new branch]      wide_deep_example_test  -> origin/wide_deep_example_test\n",
+      " * [new branch]      wideanddeep_example     -> origin/wideanddeep_example\n",
+      " * [new branch]      xgboost/predict-without-target -> origin/xgboost/predict-without-target\n",
+      " * [new branch]      youtube_dnn_retrieval   -> origin/youtube_dnn_retrieval\n",
+      " * [new branch]      youtubednn_improv       -> origin/youtubednn_improv\n",
+      " * [new branch]      youtubednn_logq         -> origin/youtubednn_logq\n",
+      " * [new tag]         v0.10.0                 -> v0.10.0\n",
+      " * [new tag]         v0.11.0                 -> v0.11.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.2.0                  -> v0.2.0\n",
+      " * [new tag]           v0.3.0                  -> v0.3.0\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new tag]           v0.4.0                  -> v0.4.0\n",
+      " * [new tag]           v0.5.0                  -> v0.5.0\n",
+      " * [new tag]           v0.6.0                  -> v0.6.0\n",
+      " * [new tag]           v0.7.0                  -> v0.7.0\n",
+      " * [new tag]           v0.8.0                  -> v0.8.0\n",
+      " * [new tag]           v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /models\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-models\n",
+      "  Building wheel for merlin-models (PEP 517): started\n",
+      "  Building wheel for merlin-models (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-models: filename=merlin_models-23.5.dev0+12.gd8133b8f-py3-none-any.whl size=343289 sha256=ea5d89a929291c07105d8d9cfbc0bb5cb7302c590c89144d6f28bf2d1bcf3941\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-hz3xmyr2/wheels/4d/e8/98/0493db55fff90dc9af123f55a9455b96f7f8166c912a02c8a6\n",
+      "Successfully built merlin-models\n",
+      "Installing collected packages: merlin-models\n",
+      "  Attempting uninstall: merlin-models\n",
+      "    Found existing installation: merlin-models 23.4.0\n",
+      "    Uninstalling merlin-models-23.4.0:\n",
+      "      Successfully uninstalled merlin-models-23.4.0\n",
+      "Successfully installed merlin-models-23.5.dev0+12.gd8133b8f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/systems\n",
+      "   fce949f..2516efb  release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      add_xgboost_serving_example -> origin/add_xgboost_serving_example\n",
+      " * [new branch]      bschifferer-patch-1     -> origin/bschifferer-patch-1\n",
+      " * [new branch]      bschifferer-patch-2     -> origin/bschifferer-patch-2\n",
+      " * [new branch]      ci/cpu-action           -> origin/ci/cpu-action\n",
+      " * [new branch]      dataset-cpu-default-None -> origin/dataset-cpu-default-None\n",
+      " * [new branch]      docs-nightly-build      -> origin/docs-nightly-build\n",
+      " * [new branch]      docs-remove-deps        -> origin/docs-remove-deps\n",
+      " * [new branch]      docs-tox                -> origin/docs-tox\n",
+      " * [new branch]      docs/contributing       -> origin/docs/contributing\n",
+      " * [new branch]      docs/coverage-threshold -> origin/docs/coverage-threshold\n",
+      " * [new branch]      docs/docstring-coverage -> origin/docs/docstring-coverage\n",
+      " * [new branch]      docs/interrogate-cfg    -> origin/docs/interrogate-cfg\n",
+      " * [new branch]      docs/interrogate-config -> origin/docs/interrogate-config\n",
+      " * [new branch]      docs/issue-templates    -> origin/docs/issue-templates\n",
+      " * [new branch]      docs/readme             -> origin/docs/readme\n",
+      " * [new branch]      feast-errors            -> origin/feast-errors\n",
+      " * [new branch]      feature/pytorch         -> origin/feature/pytorch\n",
+      " * [new branch]      feature/t4r-serving     -> origin/feature/t4r-serving\n",
+      " * [new branch]      feature/torchscript     -> origin/feature/torchscript\n",
+      " * [new branch]      fix/dask-dist-deps      -> origin/fix/dask-dist-deps\n",
+      " * [new branch]      fix/faiss-types         -> origin/fix/faiss-types\n",
+      " * [new branch]      fix/multi-hot-dtypes    -> origin/fix/multi-hot-dtypes\n",
+      " * [new branch]      fix/multihot-schemas    -> origin/fix/multihot-schemas\n",
+      " * [new branch]      fix/pkg-build-lib       -> origin/fix/pkg-build-lib\n",
+      " * [new branch]      fix/pytest-feast        -> origin/fix/pytest-feast\n",
+      " * [new branch]      fix/skipped-tests       -> origin/fix/skipped-tests\n",
+      " * [new branch]      fix/tf-input-shapes     -> origin/fix/tf-input-shapes\n",
+      " * [new branch]      fix/torch-importorskip  -> origin/fix/torch-importorskip\n",
+      " * [new branch]      fix_model_outputnames   -> origin/fix_model_outputnames\n",
+      " * [new branch]      fix_nb                  -> origin/fix_nb\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      laiacano/slack-notify   -> origin/laiacano/slack-notify\n",
+      " * [new branch]      laiacano/transformer-import -> origin/laiacano/transformer-import\n",
+      " * [new branch]      laiacano/upgrade-feast  -> origin/laiacano/upgrade-feast\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      merlin_models_xgboost   -> origin/merlin_models_xgboost\n",
+      " * [new branch]      migration/from-nvt      -> origin/migration/from-nvt\n",
+      " * [new branch]      polish/remove-dtype-matching -> origin/polish/remove-dtype-matching\n",
+      " * [new branch]      radekosmulski-patch-1   -> origin/radekosmulski-patch-1\n",
+      " * [new branch]      radekosmulski-patch-1-1 -> origin/radekosmulski-patch-1-1\n",
+      " * [new branch]      refactor/dtypes         -> origin/refactor/dtypes\n",
+      " * [new branch]      refactor/organize-tests -> origin/refactor/organize-tests\n",
+      " * [new branch]      refactor/schema-validation-hook -> origin/refactor/schema-validation-hook\n",
+      " * [new branch]      refactor/virtual-dataframe -> origin/refactor/virtual-dataframe\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      run_triton_utils        -> origin/run_triton_utils\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      update-reqs             -> origin/update-reqs\n",
+      " * [new branch]      update/precommit-hooks  -> origin/update/precommit-hooks\n",
+      " * [new branch]      use_dataloader          -> origin/use_dataloader\n",
+      " * [new branch]      v0.0.1-docs             -> origin/v0.0.1-docs\n",
+      " * [new branch]      v0.1.0-docs             -> origin/v0.1.0-docs\n",
+      " * [new tag]         v0.7.0                  -> v0.7.0\n",
+      " * [new tag]         v0.8.0                  -> v0.8.0\n",
+      " * [new tag]         v0.9.0                  -> v0.9.0\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]         v0.0.1                  -> v0.0.1\n",
+      " * [new tag]         v0.1.0                  -> v0.1.0\n",
+      " * [new tag]         v0.2.0                  -> v0.2.0\n",
+      " * [new tag]         v0.3.0                  -> v0.3.0\n",
+      " * [new tag]         v0.4.0                  -> v0.4.0\n",
+      " * [new tag]         v0.5.0                  -> v0.5.0\n",
+      " * [new tag]         v0.6.0                  -> v0.6.0\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.5.dev0+8.g2b1b90b-py3-none-any.whl size=83188 sha256=1375160a02bdf3385338c75db0eb830ac273a7d382b02115998720eabfb856df\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-_1pwgzp6/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 23.4.0\n",
+      "    Uninstalling merlin-systems-23.4.0:\n",
+      "      Successfully uninstalled merlin-systems-23.4.0\n",
+      "Successfully installed merlin-systems-23.5.dev0+8.g2b1b90b\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "From https://github.com/NVIDIA-Merlin/Transformers4Rec\n",
+      "   4a9e7373..911355f4 release-23.04           -> origin/release-23.04\n",
+      " * [new branch]      DDP_fix                 -> origin/DDP_fix\n",
+      " * [new branch]      HF-update               -> origin/HF-update\n",
+      " * [new branch]      add_benchmarking_scripts -> origin/add_benchmarking_scripts\n",
+      " * [new branch]      add_topk_layer          -> origin/add_topk_layer\n",
+      " * [new branch]      albert17-check          -> origin/albert17-check\n",
+      " * [new branch]      batches                 -> origin/batches\n",
+      " * [new branch]      benfred/datasetschema   -> origin/benfred/datasetschema\n",
+      " * [new branch]      clean_rnn_block         -> origin/clean_rnn_block\n",
+      " * [new branch]      core-schema/deprecation-warning -> origin/core-schema/deprecation-warning\n",
+      " * [new branch]      core-schema/tabular-features -> origin/core-schema/tabular-features\n",
+      " * [new branch]      core-schema/trainer     -> origin/core-schema/trainer\n",
+      " * [new branch]      dataloader              -> origin/dataloader\n",
+      " * [new branch]      dataparallel_fix        -> origin/dataparallel_fix\n",
+      " * [new branch]      doc/supported_transformers -> origin/doc/supported_transformers\n",
+      " * [new branch]      doc_fix                 -> origin/doc_fix\n",
+      " * [new branch]      docs                    -> origin/docs\n",
+      " * [new branch]      etl-nvt                 -> origin/etl-nvt\n",
+      " * [new branch]      examples                -> origin/examples\n",
+      " * [new branch]      fix-data-repartition    -> origin/fix-data-repartition\n",
+      " * [new branch]      fix-failing-ci          -> origin/fix-failing-ci\n",
+      " * [new branch]      fix-inference           -> origin/fix-inference\n",
+      " * [new branch]      fix/transformers_config -> origin/fix/transformers_config\n",
+      " * [new branch]      fix_gettingstarted_nb   -> origin/fix_gettingstarted_nb\n",
+      " * [new branch]      fix_inference           -> origin/fix_inference\n",
+      " * [new branch]      fix_nbs                 -> origin/fix_nbs\n",
+      " * [new branch]      fix_oom_tests           -> origin/fix_oom_tests\n",
+      " * [new branch]      fix_req_paper_repro     -> origin/fix_req_paper_repro\n",
+      " * [new branch]      fix_stochastic          -> origin/fix_stochastic\n",
+      " * [new branch]      fix_unit_test           -> origin/fix_unit_test\n",
+      " * [new branch]      gh-pages                -> origin/gh-pages\n",
+      " * [new branch]      github-templates        -> origin/github-templates\n",
+      " * [new branch]      ignore-masking          -> origin/ignore-masking\n",
+      " * [new branch]      laiacano/merlin-core-schema -> origin/laiacano/merlin-core-schema\n",
+      " * [new branch]      laiacano/skip-ci-on-closed-pr -> origin/laiacano/skip-ci-on-closed-pr\n",
+      " * [new branch]      license                 -> origin/license\n",
+      " * [new branch]      main                    -> origin/main\n",
+      " * [new branch]      masking_quick_fix       -> origin/masking_quick_fix\n",
+      " * [new branch]      metric-names-prefix     -> origin/metric-names-prefix\n",
+      " * [new branch]      model_save_load         -> origin/model_save_load\n",
+      " * [new branch]      multi_gpu_doc           -> origin/multi_gpu_doc\n",
+      " * [new branch]      multi_gpu_doc_fix       -> origin/multi_gpu_doc_fix\n",
+      " * [new branch]      post_fusion_context     -> origin/post_fusion_context\n",
+      " * [new branch]      pretrained_embeddings_init -> origin/pretrained_embeddings_init\n",
+      " * [new branch]      pretrained_module       -> origin/pretrained_module\n",
+      " * [new branch]      pyt_serving             -> origin/pyt_serving\n",
+      " * [new branch]      pytorch/item-id-aggregator -> origin/pytorch/item-id-aggregator\n",
+      " * [new branch]      pytorch/label_smoothing -> origin/pytorch/label_smoothing\n",
+      " * [new branch]      pytorch/model-and-heads -> origin/pytorch/model-and-heads\n",
+      " * [new branch]      pytorch/model-updates   -> origin/pytorch/model-updates\n",
+      " * [new branch]      read_schema_from_core   -> origin/read_schema_from_core\n",
+      " * [new branch]      recsys22                -> origin/recsys22\n",
+      " * [new branch]      refactor-prediction-task -> origin/refactor-prediction-task\n",
+      " * [new branch]      refactor_part1          -> origin/refactor_part1\n",
+      " * [new branch]      refactor_part2          -> origin/refactor_part2\n",
+      " * [new branch]      release-22.10           -> origin/release-22.10\n",
+      " * [new branch]      release-22.11           -> origin/release-22.11\n",
+      " * [new branch]      release-22.12           -> origin/release-22.12\n",
+      " * [new branch]      release-23.02           -> origin/release-23.02\n",
+      " * [new branch]      release-jperez999       -> origin/release-jperez999\n",
+      " * [new branch]      remove_paper_assets     -> origin/remove_paper_assets\n",
+      " * [new branch]      romeyn/dev              -> origin/romeyn/dev\n",
+      " * [new branch]      romeyn/transformer-configs -> origin/romeyn/transformer-configs\n",
+      " * [new branch]      save-schema-for-t4rec-model -> origin/save-schema-for-t4rec-model\n",
+      " * [new branch]      schema-pbtxt-bug        -> origin/schema-pbtxt-bug\n",
+      " * [new branch]      schema-shape-fix        -> origin/schema-shape-fix\n",
+      " * [new branch]      seq_binary_classification -> origin/seq_binary_classification\n",
+      " * [new branch]      serve_nvt_and__model    -> origin/serve_nvt_and__model\n",
+      " * [new branch]      session_features        -> origin/session_features\n",
+      " * [new branch]      slim_doc_deps           -> origin/slim_doc_deps\n",
+      " * [new branch]      soft_embeddings         -> origin/soft_embeddings\n",
+      " * [new branch]      ssn_seed                -> origin/ssn_seed\n",
+      " * [new branch]      stable                  -> origin/stable\n",
+      " * [new branch]      stochastic_noise        -> origin/stochastic_noise\n",
+      " * [new branch]      stochastic_noise2       -> origin/stochastic_noise2\n",
+      " * [new branch]      synthetic-data          -> origin/synthetic-data\n",
+      " * [new branch]      t4rec-MM-repro          -> origin/t4rec-MM-repro\n",
+      " * [new branch]      t4rec_paper_repro2      -> origin/t4rec_paper_repro2\n",
+      " * [new branch]      t4rec_refactor          -> origin/t4rec_refactor\n",
+      " * [new branch]      tensorflow              -> origin/tensorflow\n",
+      " * [new branch]      test-data               -> origin/test-data\n",
+      " * [new branch]      test/text_module        -> origin/test/text_module\n",
+      " * [new branch]      testing/updates         -> origin/testing/updates\n",
+      " * [new branch]      tf/example_notebook     -> origin/tf/example_notebook\n",
+      " * [new branch]      tf/fix_compute_loss     -> origin/tf/fix_compute_loss\n",
+      " * [new branch]      tf/fix_graph_mode       -> origin/tf/fix_graph_mode\n",
+      " * [new branch]      tf/model_saving_and_loading -> origin/tf/model_saving_and_loading\n",
+      " * [new branch]      tf/refactor_item_prediction_task -> origin/tf/refactor_item_prediction_task\n",
+      " * [new branch]      tf/refactor_masking     -> origin/tf/refactor_masking\n",
+      " * [new branch]      tf/refactor_ranking_metric -> origin/tf/refactor_ranking_metric\n",
+      " * [new branch]      tf/refactor_transformer_block -> origin/tf/refactor_transformer_block\n",
+      " * [new branch]      tf/save_load_model      -> origin/tf/save_load_model\n",
+      " * [new branch]      tf/test-utils           -> origin/tf/test-utils\n",
+      " * [new branch]      tf/to_tf_model          -> origin/tf/to_tf_model\n",
+      " * [new branch]      torch/demo_utils        -> origin/torch/demo_utils\n",
+      " * [new branch]      torch/fit_eval          -> origin/torch/fit_eval\n",
+      " * [new branch]      torch/fix_evaluation    -> origin/torch/fix_evaluation\n",
+      " * [new branch]      torch/fix_examples_utils -> origin/torch/fix_examples_utils\n",
+      " * [new branch]      torch/fix_wipe_memory   -> origin/torch/fix_wipe_memory\n",
+      " * [new branch]      torch/label_smoothing_loss -> origin/torch/label_smoothing_loss\n",
+      " * [new branch]      torch/next_item_prediction -> origin/torch/next_item_prediction\n",
+      " * [new branch]      torch/stochastic_swap_noise -> origin/torch/stochastic_swap_noise\n",
+      " * [new branch]      trainer_predict_step    -> origin/trainer_predict_step\n",
+      " * [new branch]      tutorial                -> origin/tutorial\n",
+      " * [new branch]      unittest_endtoend_multi -> origin/unittest_endtoend_multi\n",
+      " * [new branch]      update/torchmetrics     -> origin/update/torchmetrics\n",
+      " * [new branch]      utils                   -> origin/utils\n",
+      " * [new branch]      v0.1.2-docs             -> origin/v0.1.2-docs\n",
+      " * [new branch]      v0.1.3-docs             -> origin/v0.1.3-docs\n",
+      " * [new branch]      v0.1.4-docs             -> origin/v0.1.4-docs\n",
+      " * [new branch]      v0.1.5-docs             -> origin/v0.1.5-docs\n",
+      " * [new branch]      v0.1.6-docs             -> origin/v0.1.6-docs\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      " * [new branch]      v0.1.7-docs             -> origin/v0.1.7-docs\n",
+      " * [new tag]         v0.1.14                 -> v0.1.14\n",
+      " * [new tag]         v0.1.15                 -> v0.1.15\n",
+      " * [new tag]         v0.1.16                 -> v0.1.16\n",
+      " * [new tag]         v23.02.00               -> v23.02.00\n",
+      " * [new tag]         v23.05.dev0             -> v23.05.dev0\n",
+      " * [new tag]           custom_dataloader       -> custom_dataloader\n",
+      " * [new tag]           v0.1.0                  -> v0.1.0\n",
+      " * [new tag]           v0.1.1                  -> v0.1.1\n",
+      " * [new tag]           v0.1.10                 -> v0.1.10\n",
+      " * [new tag]           v0.1.11                 -> v0.1.11\n",
+      " * [new tag]           v0.1.12                 -> v0.1.12\n",
+      " * [new tag]           v0.1.13                 -> v0.1.13\n",
+      " * [new tag]           v0.1.2                  -> v0.1.2\n",
+      " * [new tag]           v0.1.3                  -> v0.1.3\n",
+      " * [new tag]           v0.1.4                  -> v0.1.4\n",
+      " * [new tag]           v0.1.5                  -> v0.1.5\n",
+      " * [new tag]           v0.1.6                  -> v0.1.6\n",
+      " * [new tag]           v0.1.7                  -> v0.1.7\n",
+      " * [new tag]           v0.1.8                  -> v0.1.8\n",
+      " * [new tag]           v0.1.9                  -> v0.1.9\n",
+      "Switched to a new branch 'main'\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Branch 'main' set up to track remote branch 'main' from 'origin'.\n",
+      "Processing /transformers4rec\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: transformers4rec\n",
+      "  Building wheel for transformers4rec (PEP 517): started\n",
+      "  Building wheel for transformers4rec (PEP 517): finished with status 'done'\n",
+      "  Created wheel for transformers4rec: filename=transformers4rec-23.5.dev0+11.ga070e77f-py3-none-any.whl size=481639 sha256=6bae592418f42250e0c86ccdf6a1e47ee1ef98c15b1152a57933c162c5329b52\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-2hedypqg/wheels/24/44/e3/c29f7de8e7315585705f880ad32ffeae66fcaeb79003405ef6\n",
+      "Successfully built transformers4rec\n",
+      "Installing collected packages: transformers4rec\n",
+      "  Attempting uninstall: transformers4rec\n",
+      "    Found existing installation: transformers4rec 23.4.0\n",
+      "    Uninstalling transformers4rec-23.4.0:\n",
+      "      Successfully uninstalled transformers4rec-23.4.0\n",
+      "Successfully installed transformers4rec-23.5.dev0+11.ga070e77f\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Note: switching to 'origin/release-23.04'.\n",
+      "\n",
+      "You are in 'detached HEAD' state. You can look around, make experimental\n",
+      "changes and commit them, and you can discard any commits you make in this\n",
+      "state without impacting any branches by switching back to a branch.\n",
+      "\n",
+      "If you want to create a new branch to retain commits you create, you may\n",
+      "do so (now or later) by using -c with the switch command. Example:\n",
+      "\n",
+      "  git switch -c <new-branch-name>\n",
+      "\n",
+      "Or undo this operation with:\n",
+      "\n",
+      "  git switch -\n",
+      "\n",
+      "Turn off this advice by setting config variable advice.detachedHead to false\n",
+      "\n",
+      "HEAD is now at 2516efb Return version 23.04.00 from versions\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing /systems\n",
+      "  Installing build dependencies: started\n",
+      "  Installing build dependencies: finished with status 'done'\n",
+      "  Getting requirements to build wheel: started\n",
+      "  Getting requirements to build wheel: finished with status 'done'\n",
+      "    Preparing wheel metadata: started\n",
+      "    Preparing wheel metadata: finished with status 'done'\n",
+      "Building wheels for collected packages: merlin-systems\n",
+      "  Building wheel for merlin-systems (PEP 517): started\n",
+      "  Building wheel for merlin-systems (PEP 517): finished with status 'done'\n",
+      "  Created wheel for merlin-systems: filename=merlin_systems-23.4.0-py3-none-any.whl size=82535 sha256=01c306d63bfbe3cb3fa02b48fa87945e541bc564c62f51525e420d0add2127e5\n",
+      "  Stored in directory: /tmp/pip-ephem-wheel-cache-s5zg7ehl/wheels/1f/e9/71/1b0c6295aa7f4b37cb70292d96d87d9f38204674e6531bdda6\n",
+      "Successfully built merlin-systems\n",
+      "Installing collected packages: merlin-systems\n",
+      "  Attempting uninstall: merlin-systems\n",
+      "    Found existing installation: merlin-systems 23.5.dev0+8.g2b1b90b\n",
+      "    Uninstalling merlin-systems-23.5.dev0+8.g2b1b90b:\n",
+      "      Successfully uninstalled merlin-systems-23.5.dev0+8.g2b1b90b\n",
+      "Successfully installed merlin-systems-23.4.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "cd /core\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /dataloader\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /nvtabular\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /models\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /systems\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /transformers4rec\n",
+    "git config remote.origin.fetch \"+refs/heads/*:refs/remotes/origin/*\" && git fetch && git checkout main\n",
+    "pip install . --no-deps\n",
+    "\n",
+    "cd /systems\n",
+    "git checkout origin/release-23.04\n",
+    "pip install . --no-deps"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "e9929dc8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Collecting gdown\n",
+      "  Downloading gdown-4.7.1-py3-none-any.whl (15 kB)\n",
+      "Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.8/dist-packages (from gdown) (4.12.2)\n",
+      "Requirement already satisfied: six in /usr/lib/python3/dist-packages (from gdown) (1.14.0)\n",
+      "Requirement already satisfied: filelock in /usr/local/lib/python3.8/dist-packages (from gdown) (3.12.0)\n",
+      "Requirement already satisfied: requests[socks] in /usr/local/lib/python3.8/dist-packages (from gdown) (2.29.0)\n",
+      "Requirement already satisfied: tqdm in /usr/local/lib/python3.8/dist-packages (from gdown) (4.65.0)\n",
+      "Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.8/dist-packages (from beautifulsoup4->gdown) (2.4.1)\n",
+      "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (1.25.8)\n",
+      "Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2.8)\n",
+      "Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests[socks]->gdown) (2019.11.28)\n",
+      "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.8/dist-packages (from requests[socks]->gdown) (3.1.0)\n",
+      "Collecting PySocks!=1.5.7,>=1.5.6; extra == \"socks\"\n",
+      "  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)\n",
+      "Installing collected packages: gdown, PySocks\n",
+      "Successfully installed PySocks-1.7.1 gdown-4.7.1\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Downloading...\n",
+      "From (uriginal): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+      "From (redirected): https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV&confirm=t&uuid=8c599e09-56a6-4c3f-a6f7-21a594214531\n",
+      "To: /workspace/T4Rec_repro/rees46_ecom_dataset_small_for_ci.zip\n",
+      "100%|██████████| 43.4M/43.4M [00:00<00:00, 189MB/s]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  InRelease [1581 B]\n",
+      "Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64  Packages [1009 kB]\n",
+      "Get:3 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]\n",
+      "Get:4 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]\n",
+      "Get:5 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]\n",
+      "Get:6 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]\n",
+      "Get:7 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [1045 kB]\n",
+      "Get:8 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]\n",
+      "Get:9 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB]\n",
+      "Get:10 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB]\n",
+      "Get:11 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]\n",
+      "Get:12 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2674 kB]\n",
+      "Get:13 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]\n",
+      "Get:14 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [2203 kB]\n",
+      "Get:15 http://archive.ubuntu.com/ubuntu focal-updates/universe amd64 Packages [1341 kB]\n",
+      "Get:16 http://archive.ubuntu.com/ubuntu focal-updates/multiverse amd64 Packages [31.2 kB]\n",
+      "Get:17 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages [3157 kB]\n",
+      "Get:18 http://archive.ubuntu.com/ubuntu focal-updates/restricted amd64 Packages [2341 kB]\n",
+      "Get:19 http://archive.ubuntu.com/ubuntu focal-backports/main amd64 Packages [55.2 kB]\n",
+      "Get:20 http://archive.ubuntu.com/ubuntu focal-backports/universe amd64 Packages [28.6 kB]\n",
+      "Fetched 27.3 MB in 3s (8434 kB/s)\n",
+      "Reading package lists...\n",
+      "Reading package lists...\n",
+      "Building dependency tree...\n",
+      "Reading state information...\n",
+      "unzip is already the newest version (6.0-25ubuntu1.1).\n",
+      "0 upgraded, 0 newly installed, 0 to remove and 60 not upgraded.\n",
+      "Archive:  rees46_ecom_dataset_small_for_ci.zip\n",
+      "   creating: ecom_dataset/0001/\n",
+      "  inflating: ecom_dataset/0001/valid.parquet  \n",
+      " extracting: ecom_dataset/0001/.zip  \n",
+      "  inflating: ecom_dataset/0001/train.parquet  \n",
+      "  inflating: ecom_dataset/0001/test.parquet  \n",
+      "   creating: ecom_dataset/0002/\n",
+      "  inflating: ecom_dataset/0002/valid.parquet  \n",
+      "  inflating: ecom_dataset/0002/train.parquet  \n",
+      "  inflating: ecom_dataset/0002/test.parquet  \n"
+     ]
+    }
+   ],
+   "source": [
+    "%%bash\n",
+    "\n",
+    "rm -rf ecom_dataset\n",
+    "mkdir -p ecom_dataset\n",
+    "\n",
+    "pip install gdown\n",
+    "# gdown https://drive.google.com/uc?id=1BvCHc4eXComuNK93bKhRM6cbg9y5p350  # <-- full dataset\n",
+    "gdown https://drive.google.com/uc?id=1NCFZ5ya3zyxPsrmupEoc9UEm4sslAddV\n",
+    "apt-get update -y\n",
+    "apt-get install unzip -y\n",
+    "unzip -d ecom_dataset \"rees46_ecom_dataset_small_for_ci.zip\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "fd80de2a",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-05-09 08:36:30.091603: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Please fix your imports. Module tensorflow.python.training.tracking.data_structures has been moved to tensorflow.python.trackable.data_structures. The old module will be deleted in version 2.11.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/dtypes/mappings/torch.py:43: UserWarning: PyTorch dtype mappings did not load successfully due to an error: No module named 'torch'\n",
+      "  warn(f\"PyTorch dtype mappings did not load successfully due to an error: {exc.msg}\")\n",
+      "2023-05-09 08:36:32.676489: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:66] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /lib:/usr/local/lib/python3.8/dist-packages/tensorflow:/usr/local/cuda/compat/lib:/usr/local/nvidia/lib:/usr/local/nvidia/lib64:/usr/local/cuda-11/lib64:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/lib:/repos/dist/lib:/usr/lib/jvm/default-java/lib:/usr/lib/jvm/default-java/lib/server:/opt/tritonserver/lib:/usr/local/hugectr/lib\n",
+      "2023-05-09 08:36:32.676527: W tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:265] failed call to cuInit: UNKNOWN ERROR (303)\n",
+      "2023-05-09 08:36:32.676550: I tensorflow/compiler/xla/stream_executor/cuda/cuda_diagnostics.cc:163] no NVIDIA GPU device is present: /dev/nvidia0 does not exist\n",
+      "2023-05-09 08:36:32.985205: I tensorflow/core/platform/cpu_feature_guard.cc:194] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE3 SSE4.1 SSE4.2 AVX\n",
+      "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+      "/usr/local/lib/python3.8/dist-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.environ[\"TF_GPU_ALLOCATOR\"]=\"cuda_malloc_async\"\n",
+    "import gc\n",
+    "import numpy as np\n",
+    "\n",
+    "import tensorflow as tf\n",
+    "\n",
+    "from merlin.schema.tags import Tags\n",
+    "from merlin.io.dataset import Dataset\n",
+    "\n",
+    "import merlin.models.tf as mm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "7f84cdd1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "d8f5825b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for fn in ['ecom_dataset/0001/train.parquet', 'ecom_dataset/0002/test.parquet']:\n",
+    "    t = pd.read_parquet(fn)\n",
+    "    t[['sess_pid_seq']].to_parquet(fn)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "11647dd3",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/io/dataset.py:264: UserWarning: Initializing an NVTabular Dataset in CPU mode.This is an experimental feature with extremely limited support!\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "train = Dataset(\"ecom_dataset/0001/train.parquet\")\n",
+    "valid = Dataset(\"ecom_dataset/0002/test.parquet\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "4ab4e0fb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = 'sess_pid_seq'\n",
+    "seq_name = target"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "8d9903e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# a couple of starter hyperparams\n",
+    "\n",
+    "d_model = 192\n",
+    "n_layer = 3\n",
+    "n_head = 16\n",
+    "batch_size = 128\n",
+    "learning_rate = 0.0006667377132554976\n",
+    "n_epoch = 1\n",
+    "item_embedding_dim = 448 \n",
+    "item_id_embeddings_init_std = 3"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "410ea223",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# seq_name = 'seq'\n",
+    "# target = seq_name"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "4328f03a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from nvtabular.inference.triton import export_tensorflow_ensemble\n",
+    "from nvtabular import Workflow\n",
+    "from nvtabular.ops import Categorify, Rename"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "d5a9dd50",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ops = ['sess_pid_seq'] >> Categorify(dtype=np.int32) #>> Rename(name=seq_name)\n",
+    "\n",
+    "wf = Workflow(ops)\n",
+    "\n",
+    "train = wf.fit_transform(train)\n",
+    "valid = wf.transform(valid)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "a6ade14a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from merlin.schema.io.tensorflow_metadata import TensorflowMetadata\n",
+    "\n",
+    "def get_model():\n",
+    "    mlp_block = mm.MLPBlock(\n",
+    "                    [d_model],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    schema = TensorflowMetadata.from_proto_text_file(\n",
+    "        './',\n",
+    "        file_name='rees46_schema_modified.pbtxt'\n",
+    "    ).to_merlin_schema()\n",
+    "\n",
+    "    train.schema = schema\n",
+    "    \n",
+    "    schema_model = schema.select_by_tag(Tags.ITEM_ID)\n",
+    "    input_block = mm.InputBlockV2(\n",
+    "        schema_model,\n",
+    "        categorical=mm.Embeddings(\n",
+    "                schema_model.select_by_tag(Tags.CATEGORICAL),\n",
+    "                dim=item_embedding_dim,\n",
+    "                sequence_combiner=None,\n",
+    "            )\n",
+    "        )\n",
+    "\n",
+    "    train.schema = train.schema.select_by_name(seq_name)\n",
+    "\n",
+    "    xlnet_block = mm.XLNetBlock(d_model=d_model, n_head=n_head, n_layer=n_layer)\n",
+    "\n",
+    "    dense_block = mm.SequentialBlock(\n",
+    "        input_block,\n",
+    "        mlp_block,\n",
+    "        xlnet_block\n",
+    "    )\n",
+    "\n",
+    "    mlp_block2 = mm.MLPBlock(\n",
+    "                    [item_embedding_dim],\n",
+    "                    activation='relu',\n",
+    "                    no_activation_last_layer=True,\n",
+    "                )\n",
+    "\n",
+    "    prediction_task = mm.CategoricalOutput(\n",
+    "        to_call=input_block[\"categorical\"][target],\n",
+    "    )\n",
+    "\n",
+    "    model_transformer = mm.Model(dense_block, mlp_block2, prediction_task)\n",
+    "\n",
+    "    optimizer = tf.keras.optimizers.Adam(\n",
+    "        learning_rate=learning_rate,\n",
+    "    )\n",
+    "\n",
+    "    model_transformer.compile(run_eagerly=False, optimizer=optimizer, loss=\"categorical_crossentropy\",\n",
+    "                  metrics=mm.TopKMetricsAggregator.default_metrics(top_ks=[20])\n",
+    "                 )\n",
+    "    return model_transformer, xlnet_block"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "7baec64f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_transformer, xlnet_block = get_model()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "523fe2ac",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n",
+      "2023-05-09 07:46:57.519563: I tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:648] TensorFloat-32 will be used for the matrix multiplication. This will only be logged once.\n",
+      "2023-05-09 07:46:58.350122: I tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:428] Loaded cuDNN version 8700\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.8/dist-packages/tensorflow/python/framework/indexed_slices.py:450: UserWarning: Converting sparse IndexedSlices to a dense Tensor with 174720448 elements. This may consume a large amount of memory.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n",
+      "WARNING:tensorflow:Gradients do not exist for variables ['model/mask_emb:0', 'transformer/layer_._0/rel_attn/r_s_bias:0', 'transformer/layer_._0/rel_attn/seg_embed:0', 'transformer/layer_._1/rel_attn/r_s_bias:0', 'transformer/layer_._1/rel_attn/seg_embed:0', 'transformer/layer_._2/rel_attn/r_s_bias:0', 'transformer/layer_._2/rel_attn/seg_embed:0'] when minimizing the loss. If you're using `model.compile()`, did you forget to provide a `loss` argument?\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023-05-09 07:47:12.201780: I tensorflow/compiler/xla/service/service.cc:173] XLA service 0xdd325f0 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:\n",
+      "2023-05-09 07:47:12.201824: I tensorflow/compiler/xla/service/service.cc:181]   StreamExecutor device (0): NVIDIA A10G, Compute Capability 8.6\n",
+      "2023-05-09 07:47:12.206483: I tensorflow/compiler/mlir/tensorflow/utils/dump_mlir_util.cc:268] disabling MLIR crash reproducer, set env var `MLIR_CRASH_REPRODUCER_DIRECTORY` to enable.\n",
+      "2023-05-09 07:47:12.324526: I tensorflow/compiler/jit/xla_compilation_cache.cc:480] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "677/677 [==============================] - 100s 121ms/step - loss: 7.3234 - recall_at_20: 0.1412 - mrr_at_20: 0.0795 - ndcg_at_20: 0.0932 - map_at_20: 0.0795 - precision_at_20: 0.0071 - regularization_loss: 0.0000e+00 - loss_batch: 7.3219\n",
+      "84/84 [==============================] - 6s 30ms/step - loss: 8.5802 - recall_at_20: 0.2295 - mrr_at_20: 0.0788 - ndcg_at_20: 0.1121 - map_at_20: 0.0788 - precision_at_20: 0.0115 - regularization_loss: 0.0000e+00 - loss_batch: 8.6138\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'loss': 8.580246925354004,\n",
+       " 'recall_at_20': 0.2330261468887329,\n",
+       " 'mrr_at_20': 0.07755612581968307,\n",
+       " 'ndcg_at_20': 0.11172891408205032,\n",
+       " 'map_at_20': 0.07755612581968307,\n",
+       " 'precision_at_20': 0.01165130827575922,\n",
+       " 'regularization_loss': 0.0,\n",
+       " 'loss_batch': 10.065570831298828}"
+      ]
+     },
+     "execution_count": 12,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model_transformer.fit(\n",
+    "    train,\n",
+    "    batch_size=batch_size,\n",
+    "    epochs=n_epoch,\n",
+    "    pre=mm.SequencePredictNext(schema=train.schema, target=target, transformer=xlnet_block)\n",
+    ")\n",
+    "\n",
+    "predict_last = mm.SequencePredictLast(schema=valid.schema, target=target, transformer=xlnet_block)\n",
+    "model_transformer.evaluate(\n",
+    "    valid,\n",
+    "    batch_size=batch_size,\n",
+    "    pre=predict_last,\n",
+    "    return_dict=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "569113e1",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "WARNING:tensorflow:Skipping full serialization of Keras layer TFSharedEmbeddings(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n",
+      "WARNING:tensorflow:Skipping full serialization of Keras layer Dropout(\n",
+      "  (_feature_shapes): Dict(\n",
+      "    (sess_pid_seq): TensorShape([128, None, 1])\n",
+      "  )\n",
+      "  (_feature_dtypes): Dict(\n",
+      "    (sess_pid_seq): tf.int32\n",
+      "  )\n",
+      "), because it is not built.\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "WARNING:absl:Found untraced functions such as model_context_layer_call_fn, model_context_layer_call_and_return_conditional_losses, sequence_predict_next_layer_call_fn, sequence_predict_next_layer_call_and_return_conditional_losses, sequence_predict_last_layer_call_fn while saving (showing 5 of 114). These functions will not be directly callable after loading.\n",
+      "2023-05-09 07:48:59.937050: W tensorflow/tsl/framework/cpu_allocator_impl.cc:82] Allocation of 698881792 exceeds 10% of free system memory.\n",
+      "2023-05-09 07:49:00.242621: W tensorflow/tsl/framework/cpu_allocator_impl.cc:82] Allocation of 698881792 exceeds 10% of free system memory.\n",
+      "2023-05-09 07:49:00.480362: W tensorflow/tsl/framework/cpu_allocator_impl.cc:82] Allocation of 698881792 exceeds 10% of free system memory.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "INFO:tensorflow:Assets written to: t4rec_model/assets\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/utils/tf_utils.py:101: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[key] = tf.keras.utils.serialize_keras_object(maybe_value)\n",
+      "/usr/local/lib/python3.8/dist-packages/merlin/models/tf/core/combinators.py:288: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  config[i] = tf.keras.utils.serialize_keras_object(layer)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/saving/legacy/saved_model/layer_serialization.py:134: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument.\n",
+      "  return serialization.serialize_keras_object(obj)\n",
+      "/usr/local/lib/python3.8/dist-packages/keras/initializers/initializers_v2.py:120: UserWarning: The initializer TruncatedNormal is unseeded and being called multiple times, which will return identical values  each time (even if the initializer is unseeded). Please update your code to provide a seed to the initializer, or avoid using the same initalizer instance more than once.\n",
+      "  warnings.warn(\n",
+      "2023-05-09 07:49:25.123588: W tensorflow/tsl/framework/cpu_allocator_impl.cc:82] Allocation of 698881792 exceeds 10% of free system memory.\n",
+      "2023-05-09 07:49:25.123649: W tensorflow/tsl/framework/cpu_allocator_impl.cc:82] Allocation of 698881792 exceeds 10% of free system memory.\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_transformer.save('t4rec_model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "5bd66ba8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# from merlin.systems.dag.ops.workflow import TransformWorkflow\n",
+    "# from merlin.systems.dag.ops.tensorflow import PredictTensorflow\n",
+    "\n",
+    "# serving_operators = [seq_name] >> TransformWorkflow(wf) >> PredictTensorflow(model_transformer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "e2a7b6ee",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# %%bash\n",
+    "\n",
+    "# rm -rf /workspace/models_for_benchmarking\n",
+    "# mkdir -p /workspace/models_for_benchmarking"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "55ad012c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# train.schema.select_by_name('sess_pid_seq')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "1a39b4f8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# from merlin.systems.dag.ensemble import Ensemble\n",
+    "\n",
+    "# ensemble = Ensemble(serving_operators, wf.input_schema)\n",
+    "# ens_conf, node_confs = ensemble.export(\"/workspace/models_for_benchmarking\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "d7cdc6cc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# import nvtabular.inference.triton as nvt_triton\n",
+    "# import tritonclient.grpc as grpcclient\n",
+    "# import subprocess\n",
+    "\n",
+    "# subprocess.Popen(['tritonserver', '--model-repository=/workspace/models_for_benchmarking/'])"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}