数据准备指南

本文中的所有实例均为 Json 格式,我们平台也支持对应格式的 .csv / .xlsx 文件,若您想要了解创建数据集的详细信息,可以在:创建数据集 进行了解

文本生成类型数据

Text Generation

文本生成数据字段说明:

  • instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
  • input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
  • output 指对应的输出

示例 1:

{
	[
    {
      "instruction": "给出三个保持健康的提示。 ",
      "input":"",
      "output": "1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"
    },
    {
      "instruction": "什么是三原色",
      "input":"",
      "output": "三原色是红色、蓝色和黄色"
    }
  ]
}

示例 2:

{
  [
    {
      "instruction": "输入一个动物名称,并且在该名称后补全。 ",
      "input":"他们都非常喜欢",
      "output": "狗"
    },
    {
      "instruction": "补全下面的语句",
      "input":"明天的天气很",
      "output": "晴朗"
    }
  ]
}4. 例子(多轮)

文本摘要类型数据

Text Summarization

文本摘要数据字段说明:

  • instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
  • input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
  • output 指对应的输出

示例 1:

{
  [
    {
      "instruction": "下面这句话讲述了什么? \nn 1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。 ",
      "input":"",
      "output": "讲了三种保持健康的方式"
    },
    {
      "instruction":"下面这句话讲了什么?尽管世界上颜色有很多种,但是红色、蓝色、黄色是三原色",
      "input":"",
      "output": "三原色是红色、蓝色和黄色"
    }
  ]
}

示例 2:

{
  "task":"text-summarization",
  "data":[
    {
      "instruction": "下面这句话讲述了什么? ",
      "input":".饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。",
      "output": "讲了三种保持健康的方式"
    },
    {
      "instruction": "下面这句话讲述了什么?",
      "input":"尽管世界上颜色有很多种,但是红色、蓝色、黄色是三原色",
      "output": "三原色是红色、蓝色和黄色"
    }
  ]
}

信息抽取类型数据

Information Extraction

信息抽取数据字段说明:

  • instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
  • input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
  • output 指对应的输出

示例 1:

{
  "task":"information-extraction",
  "data":[
    {
      "instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息\nn 李四于2018年在北京上海之间交通运输部工作20年。",
      "input":"",
      "output": "1.李四,工作年限:20年\n2.工作地点:北京与上海。\n3.交通运输部。"
    },
    {
      "instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息\nn 张菁,一名目前在华尔街工作的分析师。她主要分析能源领域的公司,并为客户提供股票投资建议。她已在该职位工作5年,并帮助客户实现数百万美元的收益。",
      "instruction":"",
      "output": "1.张菁 工作年限:5年\n2.工作地点:华尔街。\n3.华尔街"
    }
  ]
}

示例 2:

{
  "task":"information-extraction",
  "data":[
    {
      "instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息 ",
      "input":"李四于2018年在北京上海之间交通运输部工作20年。",
      "output": "1.李四,工作年限:20年\n2.工作地点:北京与上海。\n3.交通运输部。"
    },
    {
      "instruction": "请帮我提取下面这句话的人物工作年限,工作地点,所属领域信息",
      "input":"张菁,一名目前在华尔街工作的分析师。她主要分析能源领域的公司,并为客户提供股票投资建议。她已在该职位工作5年,并帮助客户实现数百万美元的收益。",
      "output": "1.张菁 工作年限:5年\n2.工作地点:华尔街。\n3.华尔街"
    }
  ]
}

问答类型数据

Question & Answer

问答数据字段说明:

  • instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
  • input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
  • output 指对应的输出

示例 1:

{
  "task":"question-answer",
  "data":[
    {
      "instruction": "查时间。",
      "input":"",
      "output": "根据我的资料,现在是晚上7:41分。"
    },
    {
      "instruction": "查天气",
      "instruction":"",
      "output": "今天北京多云且微风,温度介于15~18°C之间"
    }
  ]
}

示例 2:

{
  "task":"question-answer",
  "data":[
    {
      "instruction": "查时间"
      "input":"明天北京时间几点钟",
      "output": "根据我的资料,明天在北京时间约为上午8点"
    },
    {
      "instruction": "查询天气",
      "input":"今天乐山的天气怎么样。",
      "output": "抱歉,我暂时没有乐山市的天气信息"
    }
  ]
}

分类类型数据

Classification

分类数据字段说明:

  • instruction 是任务的具体说明或指导,它可以告诉用户或模型如何处理给定的输入,以获得期望的结果。一般来说,instruction会提供一些规则、约束或者示例,帮助模型正确理解和处理输入。
  • input 指的是输入模型的文本或数据。它可以是一个完整的句子、一个段落,或者更长的文本序列
  • output 指对应的输出

示例 1:

{
  "task":"classification",
  "data":[
    {
      "instruction": "垃圾邮件分类\nn 亲爱的用户,您的订阅即将到期。",
      "input":"",
      "output": "正常邮件"
    },
    {
      "instruction": "垃圾邮件分类\nn 您中奖了!领取1,000,000美元大奖!",
      "instruction":"",
      "output": "垃圾邮件"
    }
  ]
}

示例 2:

{
  "task":"classification",
  "data":[
    {
      "instruction": "新闻分类"
      "input":"北京清华大学发布重大科技成果。",
      "output": "科技新闻"
    },
    {
      "instruction": "垃圾邮件分类",
      "input":"亲爱的用户,您的订阅即将到期",
      "output": "正常邮件"
    }
  ]
}