langchain-ai · isahers1 · Dec 20, 2024 · Dec 23, 2024 · Dec 23, 2024 · Dec 23, 2024
diff --git a/python/langsmith/evaluation/_arunner.py b/python/langsmith/evaluation/_arunner.py
@@ -1,4 +1,4 @@
 """V2 Evaluation Interface."""

 from __future__ import annotations

@@ -36,7 +36,6 @@
     AEVALUATOR_T,
     DATA_T,
     EVALUATOR_T,
-    ExperimentResultRow,
     _evaluators_include_attachments,
     _ExperimentManagerMixin,
     _extract_feedback_keys,
@@ -690,7 +689,9 @@
         summary_evaluators: Sequence[SUMMARY_EVALUATOR_T],
     ) -> _AsyncExperimentManager:
         wrapped_evaluators = _wrap_summary_evaluators(summary_evaluators)
-        aggregate_feedback_gen = self._aapply_summary_evaluators(wrapped_evaluators)
+        aggregate_feedback_gen = self._aapply_summary_evaluators(
+            wrapped_evaluators, [r async for r in self.aget_results()]
+        )
         return _AsyncExperimentManager(
             await self.aget_examples(),
             experiment=self._experiment,
@@ -703,11 +704,11 @@
             upload_results=self._upload_results,
         )
 
-    async def aget_results(self) -> AsyncIterator[ExperimentResultRow]:
+    async def aget_results(self) -> AsyncIterator[schemas.ExperimentResultRow]:
         async for run, example, evaluation_results in aitertools.async_zip(
             self.aget_runs(), await self.aget_examples(), self.aget_evaluation_results()
         ):
-            yield ExperimentResultRow(
+            yield schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=evaluation_results,
@@ -758,7 +759,7 @@
         self,
         evaluators: Sequence[RunEvaluator],
         max_concurrency: Optional[int] = None,
-    ) -> AsyncIterator[ExperimentResultRow]:
+    ) -> AsyncIterator[schemas.ExperimentResultRow]:
         with cf.ThreadPoolExecutor(max_workers=4) as executor:
 
             async def score_all():
@@ -776,9 +777,9 @@
     async def _arun_evaluators(
         self,
         evaluators: Sequence[RunEvaluator],
-        current_results: ExperimentResultRow,
+        current_results: schemas.ExperimentResultRow,
         executor: cf.ThreadPoolExecutor,
-    ) -> ExperimentResultRow:
+    ) -> schemas.ExperimentResultRow:
         current_context = rh.get_tracing_context()
         metadata = {
             **(current_context["metadata"] or {}),
@@ -848,14 +849,16 @@
                     for attachment in example.attachments:
                         reader = example.attachments[attachment]["reader"]
                         reader.seek(0)
-            return ExperimentResultRow(
+            return schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=eval_results,
             )
 
     async def _aapply_summary_evaluators(
-        self, summary_evaluators: Sequence[SUMMARY_EVALUATOR_T]
+        self,
+        summary_evaluators: Sequence[SUMMARY_EVALUATOR_T],
+        evaluation_results: List[schemas.ExperimentResultRow],
     ) -> AsyncIterator[EvaluationResults]:
         runs, examples = [], []
         async_examples = aitertools.ensure_async_iterator(await self.aget_examples())
@@ -885,7 +888,7 @@
         ):
             for evaluator in summary_evaluators:
                 try:
-                    summary_eval_result = evaluator(runs, examples)
+                    summary_eval_result = evaluator(runs, examples, evaluation_results)
                     flattened_results = self.client._select_eval_results(
                         summary_eval_result,
                         fn_name=evaluator.__name__,
@@ -963,7 +966,7 @@
         experiment_manager: _AsyncExperimentManager,
     ):
         self._manager = experiment_manager
-        self._results: List[ExperimentResultRow] = []
+        self._results: List[schemas.ExperimentResultRow] = []
         self._lock = asyncio.Lock()
         self._task = asyncio.create_task(self._process_data(self._manager))
         self._processed_count = 0
@@ -972,10 +975,10 @@
     def experiment_name(self) -> str:
         return self._manager.experiment_name
 
-    def __aiter__(self) -> AsyncIterator[ExperimentResultRow]:
+    def __aiter__(self) -> AsyncIterator[schemas.ExperimentResultRow]:
         return self
 
-    async def __anext__(self) -> ExperimentResultRow:
+    async def __anext__(self) -> schemas.ExperimentResultRow:
         async def _wait_until_index(index: int) -> None:
             while self._processed_count < index:
                 await asyncio.sleep(0.05)

diff --git a/python/langsmith/evaluation/_runner.py b/python/langsmith/evaluation/_runner.py
@@ -534,12 +534,6 @@ def evaluate_existing(
     )
 
 
-class ExperimentResultRow(TypedDict):
-    run: schemas.Run
-    example: schemas.Example
-    evaluation_results: EvaluationResults
-
-
 class ExperimentResults:
     """Represents the results of an evaluate() call.
 
@@ -554,8 +548,8 @@ class ExperimentResults:
 
     def __init__(self, experiment_manager: _ExperimentManager, blocking: bool = True):
         self._manager = experiment_manager
-        self._results: List[ExperimentResultRow] = []
-        self._queue: queue.Queue[ExperimentResultRow] = queue.Queue()
+        self._results: List[schemas.ExperimentResultRow] = []
+        self._queue: queue.Queue[schemas.ExperimentResultRow] = queue.Queue()
         self._processing_complete = threading.Event()
         if not blocking:
             self._thread: Optional[threading.Thread] = threading.Thread(
@@ -570,7 +564,7 @@ def __init__(self, experiment_manager: _ExperimentManager, blocking: bool = True
     def experiment_name(self) -> str:
         return self._manager.experiment_name
 
-    def __iter__(self) -> Iterator[ExperimentResultRow]:
+    def __iter__(self) -> Iterator[schemas.ExperimentResultRow]:
         ix = 0
         while (
             not self._processing_complete.is_set()
@@ -1439,6 +1433,7 @@ def with_evaluators(
         # Split the generator into three so the manager
         # can consume each value individually.
         r1, r2, r3 = itertools.tee(experiment_results, 3)
+        # print("FOOOO", [result["evaluation_results"] for result in r3])
         return _ExperimentManager(
             (result["example"] for result in r1),
             experiment=self._experiment,
@@ -1459,7 +1454,9 @@ def with_summary_evaluators(
         wrapped_evaluators = _wrap_summary_evaluators(summary_evaluators)
         context = copy_context()
         aggregate_feedback_gen = context.run(
-            self._apply_summary_evaluators, wrapped_evaluators
+            self._apply_summary_evaluators,
+            wrapped_evaluators,
+            [r for r in self.get_results()],
         )
         return _ExperimentManager(
             self.examples,
@@ -1473,12 +1470,12 @@ def with_summary_evaluators(
             upload_results=self._upload_results,
         )
 
-    def get_results(self) -> Iterable[ExperimentResultRow]:
+    def get_results(self) -> Iterable[schemas.ExperimentResultRow]:
         """Return the traces, evaluation results, and associated examples."""
         for run, example, evaluation_results in zip(
             self.runs, self.examples, self.evaluation_results
         ):
-            yield ExperimentResultRow(
+            yield schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=evaluation_results,
@@ -1544,9 +1541,9 @@ def _predict(
     def _run_evaluators(
         self,
         evaluators: Sequence[RunEvaluator],
-        current_results: ExperimentResultRow,
+        current_results: schemas.ExperimentResultRow,
         executor: cf.ThreadPoolExecutor,
-    ) -> ExperimentResultRow:
+    ) -> schemas.ExperimentResultRow:
         current_context = rh.get_tracing_context()
         metadata = {
             **(current_context["metadata"] or {}),
@@ -1619,7 +1616,7 @@ def _run_evaluators(
                         reader = example.attachments[attachment]["reader"]
                         reader.seek(0)
 
-            return ExperimentResultRow(
+            return schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=eval_results,
@@ -1629,7 +1626,7 @@ def _score(
         self,
         evaluators: Sequence[RunEvaluator],
         max_concurrency: Optional[int] = None,
-    ) -> Iterable[ExperimentResultRow]:
+    ) -> Iterable[schemas.ExperimentResultRow]:
         """Run the evaluators on the prediction stream.
 
         Expects runs to be available in the manager.
@@ -1671,7 +1668,9 @@ def _score(
                     yield result
 
     def _apply_summary_evaluators(
-        self, summary_evaluators: Sequence[SUMMARY_EVALUATOR_T]
+        self,
+        summary_evaluators: Sequence[SUMMARY_EVALUATOR_T],
+        evaluation_results: List[schemas.ExperimentResultRow],
     ) -> Generator[EvaluationResults, None, None]:
         runs, examples = [], []
         for run, example in zip(self.runs, self.examples):
@@ -1699,7 +1698,9 @@ def _apply_summary_evaluators(
             ):
                 for evaluator in summary_evaluators:
                     try:
-                        summary_eval_result = evaluator(runs, examples)
+                        summary_eval_result = evaluator(
+                            runs, examples, evaluation_results
+                        )
                         # TODO: Expose public API for this.
                         flattened_results = self.client._select_eval_results(
                             summary_eval_result,
@@ -1793,16 +1794,20 @@ def _wrap(evaluator: SUMMARY_EVALUATOR_T) -> SUMMARY_EVALUATOR_T:
 
         @functools.wraps(evaluator)
         def _wrapper_inner(
-            runs: Sequence[schemas.Run], examples: Sequence[schemas.Example]
+            runs: Sequence[schemas.Run],
+            examples: Sequence[schemas.Example],
+            evaluation_results: Sequence[schemas.ExperimentResultRow],
         ) -> Union[EvaluationResult, EvaluationResults]:
             @rh.traceable(name=eval_name)
             def _wrapper_super_inner(
-                runs_: str, examples_: str
+                runs_: str, examples_: str, evaluation_results_: str
             ) -> Union[EvaluationResult, EvaluationResults]:
-                return evaluator(list(runs), list(examples))
+                return evaluator(list(runs), list(examples), list(evaluation_results))
 
             return _wrapper_super_inner(
-                f"Runs[] (Length={len(runs)})", f"Examples[] (Length={len(examples)})"
+                f"Runs[] (Length={len(runs)})",
+                f"Examples[] (Length={len(examples)})",
+                f"EvaluationResults[] (Length={len(evaluation_results)})",
             )
 
         return _wrapper_inner
@@ -2173,7 +2178,7 @@ def extract_evaluation_results_keys(node, variables):
 
 
 def _to_pandas(
-    results: list[ExperimentResultRow],
+    results: list[schemas.ExperimentResultRow],
     start: Optional[int] = 0,
     end: Optional[int] = None,
 ):
@@ -2190,7 +2195,7 @@ def _to_pandas(
 
 
 def _flatten_experiment_results(
-    results: list[ExperimentResultRow],
+    results: list[schemas.ExperimentResultRow],
     start: Optional[int] = 0,
     end: Optional[int] = None,
 ):