[feat] add from_parquet to dataloader #709

JamesHWade · 2024-03-25T00:42:22Z

A parquet file loader would be a convenient addition to the dataloader class. I particularly like that parquet files preserve types better than a csv file.

Here's the change:

def from_parquet(self, file_path: str, fields: list[str] = None, input_keys: tuple[str] = ()) -> list[dspy.Example]:
        dataset = load_dataset("parquet", data_files=file_path)["train"]

        if not fields:
            fields = list(dataset.features)

        return [dspy.Example({field: row[field] for field in fields}).with_inputs(input_keys) for row in dataset]

Note, this PR was originally made in #483, but something with git hooks prevented test from being able to run.

arnavsinghvi11 · 2024-03-25T20:49:09Z

Thanks @JamesHWade !

[feat] add from_parquet to dataloader

c4a6c95

arnavsinghvi11 merged commit a8b6e40 into stanfordnlp:main Mar 25, 2024
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[feat] add from_parquet to dataloader #709

[feat] add from_parquet to dataloader #709

JamesHWade commented Mar 25, 2024

arnavsinghvi11 commented Mar 25, 2024

[feat] add from_parquet to dataloader #709

[feat] add from_parquet to dataloader #709

Conversation

JamesHWade commented Mar 25, 2024

arnavsinghvi11 commented Mar 25, 2024