创建数据集
支持的文件格式
我们支持多种格式的文件类型,您只需要导入特定格式的文件,我们会帮您自动生成可用于训练的数据集。
目前我们支持的文档格式:
- 表格文件:
- .csv
- .xlsx
- 文本文件:
- .json 文件;
下载数据模板
您也可以直接下载数据集模板,并按照按照模板文件的样式整理自己的数据文档即可,如下图所示:
表格类型文件
若需要通过上传表格文件创建数据集,您需要执行以下步骤:
- 创建一个.xlsx / .csv 格式的文件;
- 在文件中建立一个包含三列内容:“Instruction”、“Input”与“Output”的表格;
- 用自己收集或者整理出来的数据填充到对应字段;
- 请注意,“Instruction”字段内所有信息都必须清晰明确地描述如何将 'Input' 转换成 'Output';
- 完成后保存该文件;
- 最后将此文件上传到我们系统中即可!
我们希望通过以上详述对您在使用过程中有所帮助!如果有任何其他问题或需要进一步指导,请随时联系我们,我们将竭诚为您服务!
文本格式文件
若需要通过上传文本格式文件创建数据集,您的文本文件需要符合 Json 的数据格式:
- Json 格式文件:数据以键值对形式存在: 每一条数据都由 “键” 和 “值” 组成,形式为 "键":"值"。例如,在 Model Factory 中,每条数据都有三个键:
Instruction
,Input
和Output
。 - 键值对 之间需要使用逗号分隔: 每个条数据都由多个 键值对 构成,键值对 之间需要使用逗号
,
进行分割。 - 多条数据使用逗号分隔: 在 Model Factory 中,一条数据由
Instruction
,Input
和Output
这 3 个键值对构成,每条数据之间需要使用逗号,
进行分割。 - 数据集合用大括号包围: 所有的 键值对 需要被大括号
{}
包围起来,代表这是一个对象。即 每条数据都需要使用大括号{}
包围起来。 - 总体结构用方括号包围: 若有多个这样的集合,则整个文档需要被方括号
[]
包围,代表这是一个数组。即 所有数据需要方括号[]
包围。
根据以上规则,我们就可以得到如下格式:
[
{
"instruction": "说明或指示",
"input": "输入内容",
"output": "输出结果"
},
{
"instruction": "另一段说明或指示",
"input": "另一段输入内容",
"output": "另一段输出结果"
}
]
请注意:
- 所有的字符串类型必须用双引号""包裹起来。
- .json文件不支持注释。