数据准备指南
本文中的所有实例均为 Json 格式,我们平台也支持对应格式的 .csv / .xlsx 文件,若您想要了解创建数据集的详细信息,可以在:创建数据集 进行了解
文本生成类型数据
Text Generation
文本生成数据字段说明:
- instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
- input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
- output 指对应的输出
示例 1:
{
[
{
"instruction": "给出三个保持健康的提示。 ",
"input":"",
"output": "1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"
},
{
"instruction": "什么是三原色",
"input":"",
"output": "三原色是红色、蓝色和黄色"
}
]
}
示例 2:
{
[
{
"instruction": "输入一个动物名称,并且在该名称后补全。 ",
"input":"他们都非常喜欢",
"output": "狗"
},
{
"instruction": "补全下面的语句",
"input":"明天的天气很",
"output": "晴朗"
}
]
}4. 例子(多轮)
文本摘要类型数据
Text Summarization
文本摘要数据字段说明:
- instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
- input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
- output 指对应的输出
示例 1:
{
[
{
"instruction": "下面这句话讲述了什么? \nn 1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。 ",
"input":"",
"output": "讲了三种保持健康的方式"
},
{
"instruction":"下面这句话讲了什么?尽管世界上颜色有很多种,但是红色、蓝色、黄色是三原色",
"input":"",
"output": "三原色是红色、蓝色和黄色"
}
]
}
示例 2:
{
"task":"text-summarization",
"data":[
{
"instruction": "下面这句话讲述了什么? ",
"input":".饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。",
"output": "讲了三种保持健康的方式"
},
{
"instruction": "下面这句话讲述了什么?",
"input":"尽管世界上颜色有很多种,但是红色、蓝色、黄色是三原色",
"output": "三原色是红色、蓝色和黄色"
}
]
}
信息抽取类型数据
Information Extraction
信息抽取数据字段说明:
- instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
- input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
- output 指对应的输出
示例 1:
{
"task":"information-extraction",
"data":[
{
"instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息\nn 李四于2018年在北京上海之间交通运输部工作20年。",
"input":"",
"output": "1.李四,工作年限:20年\n2.工作地点:北京与上海。\n3.交通运输部。"
},
{
"instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息\nn 张菁,一名目前在华尔街工作的分析师。她主要分析能源领域的公司,并为客户提供股票投资建议。她已在该职位工作5年,并帮助客户实现数百万美元的收益。",
"instruction":"",
"output": "1.张菁 工作年限:5年\n2.工作地点:华尔街。\n3.华尔街"
}
]
}
示例 2:
{
"task":"information-extraction",
"data":[
{
"instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息 ",
"input":"李四于2018年在北京上海之间交通运输部工作20年。",
"output": "1.李四,工作年限:20年\n2.工作地点:北京与上海。\n3.交通运输部。"
},
{
"instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息",
"input":"张菁,一名目前在华尔街工作的分析师。她主要分析能源领域的公司,并为客户提供股票投资建议。她已在该职位工作5年,并帮助客户实现数百万美元的收益。",
"output": "1.张菁 工作年限:5年\n2.工作地点:华尔街。\n3.华尔街"
}
]
}
问答类型数据
Question & Answer
问答数据字段说明:
- instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
- input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
- output 指对应的输出
示例 1:
{
"task":"question-answer",
"data":[
{
"instruction": "查时间。",
"input":"",
"output": "根据我的资料,现在是晚上7:41分。"
},
{
"instruction": "查天气",
"instruction":"",
"output": "今天北京多云且微风,温度介于15~18°C之间"
}
]
}
示例 2:
{
"task":"question-answer",
"data":[
{
"instruction": "查时间"
"input":"明天北京时间几点钟",
"output": "根据我的资料,明天在北京时间约为上午8点"
},
{
"instruction": "查询天气",
"input":"今天乐山的天气怎么样。",
"output": "抱歉,我暂时没有乐山市的天气信息"
}
]
}
分类类型数据
Classification
分类数据字段说明:
- instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
- input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
- output 指对应的输出
示例 1:
{
"task":"classification",
"data":[
{
"instruction": "垃圾邮件分类\nn 亲爱的用户,您的订阅即将到期。",
"input":"",
"output": "正常邮件"
},
{
"instruction": "垃圾邮件分类\nn 您中奖了!领取1,000,000美元大奖!",
"instruction":"",
"output": "垃圾邮件"
}
]
}
示例 2:
{
"task":"classification",
"data":[
{
"instruction": "新闻分类"
"input":"北京清华大学发布重大科技成果。",
"output": "科技新闻"
},
{
"instruction": "垃圾邮件分类",
"input":"亲爱的用户,您的订阅即将到期",
"output": "正常邮件"
}
]
}