neulab · neubig · Sep 8, 2023 · Sep 7, 2023 · Sep 7, 2023 · Sep 7, 2023
diff --git a/prompt2model/dataset_generator/base.py b/prompt2model/dataset_generator/base.py
@@ -4,7 +4,6 @@
 
 from abc import ABC, abstractmethod
 from enum import Enum
-from pathlib import Path
 
 import datasets
 
@@ -26,14 +25,14 @@ class DatasetGenerator(ABC):
     def generate_dataset_split(
         self,
         prompt_spec: PromptSpec,
-        expected_num_examples: int,
+        num_examples: int,
         split: DatasetSplit,
     ) -> datasets.Dataset:
         """Generate data for a single named split of data.
 
         Args:
             prompt_spec: A prompt spec (containing a system description).
-            expected_num_examples: Expected number of examples in split.
+            num_examples: Expected number of examples in split.
             split: Name of dataset split to generate.
 
         Returns:
@@ -43,14 +42,13 @@ def generate_dataset_split(
     def generate_dataset_dict(
         self,
         prompt_spec: PromptSpec,
-        expected_num_examples: dict[DatasetSplit, int],
-        output_dir: str | None = None,
+        num_examples: dict[DatasetSplit, int],
     ) -> datasets.DatasetDict:
         """Generate full dataset splits (e.g. train/dev/test) from a prompt.
 
         Args:
             prompt_spec: A prompt specification.
-            expected_num_examples: Expected number of
+            num_examples: Expected number of
                 examples per split (train/val/test).
 
         Returns:
@@ -59,13 +57,8 @@ def generate_dataset_dict(
         dataset_dict = datasets.DatasetDict(
             {
                 split.value: self.generate_dataset_split(prompt_spec, num, split=split)
-                for split, num in expected_num_examples.items()
+                for split, num in num_examples.items()
             }
         )
 
-        if output_dir:
-            save_dir = Path(output_dir)
-            save_dir.mkdir(parents=True, exist_ok=True)
-            dataset_dict.save_to_disk(str(save_dir))
-
         return dataset_dict