创建数据集

支持的文件格式

我们支持多种格式的文件类型,您只需要导入特定格式的文件,我们会帮您自动生成可用于训练的数据集。

目前我们支持的文档格式:

  1. 表格文件:
    1. .csv
    2. .xlsx
  2. 文本文件:
    1. .json 文件;

下载数据模板

您也可以直接下载数据集模板,并按照按照模板文件的样式整理自己的数据文档即可,如下图所示:

Untitled

表格类型文件

若需要通过上传表格文件创建数据集,您需要执行以下步骤:

  1. 创建一个.xlsx / .csv 格式的文件;
  2. 在文件中建立一个包含三列内容:“Instruction”、“Input”与“Output”的表格;
  3. 用自己收集或者整理出来的数据填充到对应字段;
  4. 请注意,“Instruction”字段内所有信息都必须清晰明确地描述如何将 'Input' 转换成 'Output';
  5. 完成后保存该文件;
  6. 最后将此文件上传到我们系统中即可!

我们希望通过以上详述对您在使用过程中有所帮助!如果有任何其他问题或需要进一步指导,请随时联系我们,我们将竭诚为您服务!

文本格式文件

若需要通过上传文本格式文件创建数据集,您的文本文件需要符合 Json 的数据格式:

  1. Json 格式文件:数据以键值对形式存在: 每一条数据都由 “键” 和 “值” 组成,形式为 "键":"值"。例如,在 Model Factory 中,每条数据都有三个键:InstructionInputOutput
  2. 键值对 之间需要使用逗号分隔: 每个条数据都由多个 键值对 构成,键值对 之间需要使用逗号 , 进行分割。
  3. 多条数据使用逗号分隔: 在 Model Factory 中,一条数据由 InstructionInputOutput 这 3 个键值对构成,每条数据之间需要使用逗号 , 进行分割。
  4. 数据集合用大括号包围: 所有的 键值对 需要被大括号 {}包围起来,代表这是一个对象。即 每条数据都需要使用大括号 {}包围起来。
  5. 总体结构用方括号包围: 若有多个这样的集合,则整个文档需要被方括号 []包围,代表这是一个数组。即 所有数据需要方括号 []包围。

根据以上规则,我们就可以得到如下格式:

[
	{
		"instruction": "说明或指示", 
		"input": "输入内容", 
		"output": "输出结果" 
	}, 
	{ 
		"instruction": "另一段说明或指示", 
		"input": "另一段输入内容", 
		"output": "另一段输出结果" 
	}
]

请注意:

  • 所有的字符串类型必须用双引号""包裹起来。
  • .json文件不支持注释。