dask · hendrikmakait · Dec 18, 2023 · Aug 30, 2023 · Aug 31, 2023 · Sep 1, 2023
@@ -56,3 +56,7 @@ conda list --show-channel-urls
 
 rapids-logger "Python py.test for distributed"
 py.test distributed -v -m gpu --runslow --junitxml="$WORKSPACE/junit-distributed.xml"
+
+# cuDF spill stats monitoring must be enabled for this test
+CUDF_SPILL=on CUDF_SPILL_STATS=1 DASK_DISTRIBUTED__DIAGNOSTICS__CUDF=1 \
+    py.test distributed/diagnostics/tests/test_cudf_diagnostics.py -v -m gpu --runslow --junitxml="$WORKSPACE/junit-distributed.xml"
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
-import math
-from textwrap import dedent
+from collections.abc import Iterable
+from typing import TypeVar
 
 from bokeh.core.properties import without_property_validation
 from bokeh.models import (
@@ -10,6 +10,7 @@
     HoverTool,
     NumeralTickFormatter,
     OpenURL,
+    Range1d,
     TapTool,
 )
 from bokeh.plotting import figure
@@ -18,12 +19,19 @@
 from dask.utils import format_bytes
 
 from distributed.dashboard.components import DashboardComponent, add_periodic_callback
-from distributed.dashboard.components.scheduler import BOKEH_THEME, TICKS_1024
+from distributed.dashboard.components.scheduler import (
+    BOKEH_THEME,
+    TICKS_1024,
+    XLABEL_ORIENTATION,
+    MemoryColor,
+)
 from distributed.dashboard.utils import update
 from distributed.utils import log_errors
 
+T = TypeVar("T")
+
 
-class RMMMemoryUsage(DashboardComponent):
+class RMMMemoryUsage(DashboardComponent, MemoryColor):
     """
     GPU memory usage plot that includes information about memory
     managed by RMM. If an RMM pool is being used, shows the amount of
@@ -32,168 +40,166 @@
 
     @log_errors
     def __init__(self, scheduler, width=600, **kwargs):
+        DashboardComponent.__init__(self)
+        MemoryColor.__init__(self, neutral_color="#76B900")
+
         self.last = 0
         self.scheduler = scheduler
         self.source = ColumnDataSource(
             {
-                "rmm-used": [1, 2],
-                "rmm-used-half": [0.5, 1],
-                "rmm-total": [2, 4],
-                "rmm-total-half": [1, 2],
-                "external-used": [2, 1],
-                "external-used-x": [3, 4.5],
-                "worker": ["a", "b"],
-                "gpu-index": [0, 0],
-                "y": [1, 2],
-                "escaped_worker": ["a", "b"],
-                "rmm_memory_text": [
-                    "RMM memory used: 1B/1B\nTotal GPU memory used: 1B/2B",
-                    "RMM memory used: 1B/1B\nTotal GPU memory used: 1B/2B",
-                ],
+                "width": [],
+                "x": [],
+                "y": [],
+                "color": [],
+                "alpha": [],
+                "worker": [],
+                "escaped_worker": [],
+                "rmm_used": [],
+                "rmm_total": [],
+                "gpu_used": [],
+                "gpu_total": [],
+                "spilled": [],
             }
         )
 
-        memory = figure(
-            title="RMM Memory",
+        self.root = figure(
+            title="RMM memory used",
             tools="",
             width=int(width / 2),
-            name="rmm_memory_histogram",
+            name="rmm_memory",
             **kwargs,
         )
-
-        rect = memory.rect(
-            source=self.source,
-            x="rmm-used-half",
-            y="y",
-            width="rmm-used",
-            height=1,
-            color="#76B900",
-            alpha=1.0,
-        )
-        rect.nonselection_glyph = None
-
-        rect = memory.rect(
+        rect = self.root.rect(
             source=self.source,
-            x="rmm-total-half",
+            x="x",
             y="y",
-            width="rmm-total",
-            height=1,
-            color="#76B900",
-            alpha=0.75,
+            width="width",
+            height=0.9,
+            color="color",
+            fill_alpha="alpha",
+            line_width=0,
         )
         rect.nonselection_glyph = None
 
-        rect = memory.rect(
-            source=self.source,
-            x="external-used-x",
-            y="y",
-            width="external-used",
-            height=1,
-            color="#76B900",
-            alpha=0.5,
+        self.root.axis[0].ticker = BasicTicker(**TICKS_1024)
+        self.root.xaxis[0].formatter = NumeralTickFormatter(format="0.0 b")
+        self.root.xaxis.major_label_orientation = XLABEL_ORIENTATION
+        self.root.xaxis.minor_tick_line_alpha = 0
+        self.root.x_range = Range1d(start=0)
+        self.root.yaxis.visible = False
+        self.root.ygrid.visible = False
+        self.root.toolbar_location = None
+
+        tap = TapTool(callback=OpenURL(url="./info/worker/@escaped_worker.html"))
+        self.root.add_tools(tap)
+
+        hover = HoverTool(
+            point_policy="follow_mouse",
+            tooltips="""
+            <div>
+                <span style="font-size: 12px; font-weight: bold;">Worker:</span>&nbsp;
+                <span style="font-size: 10px; font-family: Monaco, monospace;">@worker</span>
+            </div>
+            <div>
+                <span style="font-size: 12px; font-weight: bold;">RMM memory used:</span>&nbsp;
+                <span style="font-size: 10px; font-family: Monaco, monospace;">@rmm_used{0.00 b} / @rmm_total{0.00 b}</span>
+            </div>
+            <div>
+                <span style="font-size: 12px; font-weight: bold;">GPU memory used:</span>&nbsp;
+                <span style="font-size: 10px; font-family: Monaco, monospace;">@gpu_used{0.00 b} / @gpu_total{0.00 b}</span>
+            </div>
+            <div>
+                <span style="font-size: 12px; font-weight: bold;">Spilled to CPU:</span>&nbsp;
+                <span style="font-size: 10px; font-family: Monaco, monospace;">@spilled{0.00 b}</span>
+            </div>
+            """,
         )
-        rect.nonselection_glyph = None
-
-        memory.axis[0].ticker = BasicTicker(**TICKS_1024)
-        memory.xaxis[0].formatter = NumeralTickFormatter(format="0.0 b")
-        memory.xaxis.major_label_orientation = -math.pi / 12
-        memory.x_range.start = 0
-
-        for fig in [memory]:
-            fig.xaxis.minor_tick_line_alpha = 0
-            fig.yaxis.visible = False
-            fig.ygrid.visible = False
-
-            tap = TapTool(callback=OpenURL(url="./info/worker/@escaped_worker.html"))
-            fig.add_tools(tap)
-
-            fig.toolbar_location = None
-            fig.yaxis.visible = False
-
-        hover = HoverTool()
-        hover.tooltips = "@worker : @rmm_memory_text"
-        hover.point_policy = "follow_mouse"
-        memory.add_tools(hover)
-
-        self.memory_figure = memory
+        self.root.add_tools(hover)
 
     @without_property_validation
     @log_errors
     def update(self):
+        def quadlist(i: Iterable[T]) -> list[T]:
+            out = []
+            for ii in i:
+                out += [ii, ii, ii, ii]
+            return out
+
         workers = list(self.scheduler.workers.values())
-        rmm_total = []
+
+        width = []
+        x = []
+        color = []
+        max_limit = 0
         rmm_used = []
-        external_used = []
-        gpu_index = []
-        y = []
-        worker = []
-        external_used_x = []
-        memory_max = 0
+        rmm_total = []
+        gpu_used = []
         gpu_total = []
-        rmm_memory_text = []
+        spilled = []
 
-        for idx, ws in enumerate(workers):
+        for ws in workers:
             try:
                 rmm_metrics = ws.metrics["rmm"]
                 gpu_metrics = ws.metrics["gpu"]
                 gpu_info = ws.extra["gpu"]
             except KeyError:
-                continue
-            rmm_total_worker = rmm_metrics["rmm-total"]  # RMM memory only
-            rmm_used_worker = rmm_metrics["rmm-used"]
-            gpu_total_worker = gpu_info["memory-total"]  # All GPU memory
-            gpu_used_worker = gpu_metrics["memory-used"]
+                rmm_metrics = {"rmm-used": 0, "rmm-total": 0}
+                gpu_metrics = {"memory-used": 0}
+                gpu_info = {"memory-total": 0}
+
+            try:
+                cudf_metrics = ws.metrics["cudf"]
+            except KeyError:
+                cudf_metrics = {"cudf-spilled": 0}
 
-            external_used_worker = gpu_used_worker - rmm_total_worker
+            rmm_used_worker = rmm_metrics["rmm-used"]  # RMM memory only
+            rmm_total_worker = rmm_metrics["rmm-total"]
+            gpu_used_worker = gpu_metrics["memory-used"]  # All GPU memory
+            gpu_total_worker = gpu_info["memory-total"]
+            spilled_worker = cudf_metrics["cudf-spilled"] or 0  # memory spilled to host
 
-            rmm_total.append(rmm_total_worker)
+            max_limit = max(
+                max_limit, gpu_total_worker, gpu_used_worker + spilled_worker
+            )
+            color_i = self._memory_color(gpu_used_worker, gpu_total_worker, ws.status)
+
+            width += [
+                rmm_used_worker,
+                rmm_total_worker - rmm_used_worker,
+                gpu_used_worker - rmm_total_worker,
+                spilled_worker,
+            ]
+            x += [sum(width[-4:i]) + width[i] / 2 for i in range(-4, 0)]
+            color += [color_i, color_i, color_i, "grey"]
+
+            # memory info
             rmm_used.append(rmm_used_worker)
+            rmm_total.append(rmm_total_worker)
+            gpu_used.append(gpu_used_worker)
             gpu_total.append(gpu_total_worker)
-            external_used.append(external_used_worker)
-            external_used_x.append(rmm_total_worker + external_used_worker / 2)
-            worker.append(ws.address)
-            gpu_index.append(idx)
-            y.append(idx)
-
-            memory_max = max(memory_max, gpu_total_worker)
-
-            rmm_memory_text.append(
-                "RMM memory used: {}/{}\nTotal GPU memory used: {}/{}".format(
-                    format_bytes(rmm_used_worker),
-                    format_bytes(rmm_total_worker),
-                    format_bytes(gpu_used_worker),
-                    format_bytes(gpu_total_worker),
-                )
-            )
+            spilled.append(spilled_worker)
 
-        self.memory_figure.title.text = dedent(
-            """\
-            RMM Utilization: {} / {}
-            GPU Memory: {} / {}
-            """.format(
-                format_bytes(sum(rmm_used)),
-                format_bytes(sum(rmm_total)),
-                format_bytes(sum([*rmm_total, *external_used])),
-                format_bytes(sum(gpu_total)),
-            )
-        )
+        title = f"RMM memory used: {format_bytes(sum(rmm_used))} / {format_bytes(sum(rmm_total))}\nGPU memory used: {format_bytes(sum(gpu_used))} / {format_bytes(sum(gpu_total))}"
+        if sum(spilled):
+            title += f" + {format_bytes(sum(spilled))} spilled to CPU"
+        self.root.title.text = title
 
         result = {
-            "rmm-total": rmm_total,
-            "rmm-used": rmm_used,
-            "external-used": external_used,
-            "rmm-total-half": [m // 2 for m in rmm_total],
-            "rmm-used-half": [m // 2 for m in rmm_used],
-            "external-used-x": external_used_x,
-            "worker": worker,
-            "gpu-index": gpu_index,
-            "y": y,
-            "escaped_worker": [escape.url_escape(w) for w in worker],
-            "rmm_memory_text": rmm_memory_text,
+            "width": width,
+            "x": x,
+            "y": quadlist(range(len(workers))),
+            "color": color,
+            "alpha": [1, 0.7, 0.4, 1] * len(workers),
+            "worker": quadlist(ws.address for ws in workers),
+            "escaped_worker": quadlist(escape.url_escape(ws.address) for ws in workers),
+            "rmm_used": quadlist(rmm_used),
+            "rmm_total": quadlist(rmm_total),
+            "gpu_used": quadlist(gpu_used),
+            "gpu_total": quadlist(gpu_total),
+            "spilled": quadlist(spilled),
         }
 
-        self.memory_figure.x_range.end = memory_max
-
+        self.root.x_range.end = max_limit
         update(self.source, result)
 
 
@@ -202,5 +208,5 @@
     rmm_load = RMMMemoryUsage(scheduler, sizing_mode="stretch_both")
     rmm_load.update()
     add_periodic_callback(doc, rmm_load, 100)
-    doc.add_root(rmm_load.memory_figure)
+    doc.add_root(rmm_load.root)
     doc.theme = BOKEH_THEME
@@ -276,25 +276,32 @@ class MemoryColor:
     orange: float
     red: float
 
-    def __init__(self):
+    def __init__(
+        self, neutral_color="blue", target_color="orange", terminated_color="red"
+    ):
+        self.neutral_color = neutral_color
+        self.target_color = target_color
+        self.terminated_color = terminated_color
+
         target = dask.config.get("distributed.worker.memory.target")
         spill = dask.config.get("distributed.worker.memory.spill")
         terminate = dask.config.get("distributed.worker.memory.terminate")
+
         # These values can be False. It's also common to configure them to impossibly
         # high values to achieve the same effect.
         self.orange = min(target or math.inf, spill or math.inf)
         self.red = min(terminate or math.inf, 1.0)
 
     def _memory_color(self, current: int, limit: int, status: Status) -> str:
         if status != Status.running:
-            return "red"
+            return self.terminated_color
         if not limit:
-            return "blue"
+            return self.neutral_color
         if current >= limit * self.red:
-            return "red"
+            return self.terminated_color
         if current >= limit * self.orange:
-            return "orange"
-        return "blue"
+            return self.target_color
+        return self.neutral_color
 
 
 class ClusterMemory(DashboardComponent, MemoryColor):