DeepSeek 数据集生成器

这是一个基于 PyQt6 的图形化界面应用程序，用于生成问答对（问题-回答）数据集。通过输入文本、配置参数，即可自动调用ollama后端 API 生成问答对，并支持保存为 JSON 文件。

软件截图

系统要求

Windows 64 位

Warning: 该程序需预先安装ollama，安装方法请参考相关资料

安装依赖

安装 Python 3.7 或更高版本。

使用以下命令安装所需的 Python 包：

pip install -r requirements.txt

运行

在命令行中运行以下命令启动应用程序：

python dataset_generator.py

功能描述

问答对生成：用户输入文本到文本框，程序会根据文本生成多个相关问题，并自动从后端接口获取每个问题的答案。可以通过左上角的“导入文件”按钮导入 .docx 或 .txt 文件来处理长篇文档。
输出格式：生成的问答对以 JSON 格式存储，结构如下：

[
  {
    "conversations": [
      {
        "role": "user",
        "content": "问题内容"
      },
      {
        "role": "assistant",   
        "content": "回答内容"
      }
    ]
  }
]

界面说明

参数设置区域

选择模型：有多个预置模型供选择，还可自定义模型名称。
API地址：设置后端 API 的地址，默认为 http://localhost:11434/api/generate。
问答对数量：一次生成的问答对数量，默认为 3，范围是 1-500。
输出文件：设置生成结果的输出文件名，默认为 deepseek_dataset.json。

控制按钮

生成数据集：点击开始根据输入文本和参数生成问答对。
保存结果：将生成的问答对保存到指定的 JSON 文件。
合并 JSON 文件：可以选择多个 JSON 文件，并将它们合并为一个文件。

对话框

输入和输出的文本框分别是用户输入原文和生成的问答对结果。

使用示例

以下是使用该程序的简单步骤：

输入文本：在左上角的文本框中输入需要生成问答对的文本。
配置参数：配置参数，如选择模型、API 地址、问答对数量等。
生成问答对：点击“生成数据集”按钮，程序会在右侧的文本框中显示生成的问答对。
保存结果：点击“保存结果”按钮，将问答对保存为 JSON 文件。
合并 JSON 文件：可以合并多个 JSON 文件，生成一个完整的数据集。

注意事项

如果导入的 Word 文档中包含 MathType 公式，程序会尝试将其转化为 LaTeX 格式。
输入的文本长度不能超过 1000 字，超过部分会被截断。
确保后端 API 地址正确且可访问，否则无法生成问答对。

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
image		image
README.md		README.md
dataset_generator.py		dataset_generator.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DeepSeek 数据集生成器

软件截图

系统要求

安装依赖

运行

功能描述

界面说明

参数设置区域

控制按钮

对话框

使用示例

注意事项

About

Releases

Packages

Languages

hajoxs/deepseek-dataset-generator

Folders and files

Latest commit

History

Repository files navigation

DeepSeek 数据集生成器

软件截图

系统要求

安装依赖

运行

功能描述

界面说明

参数设置区域

控制按钮

对话框

使用示例

注意事项

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages