【问题标题】:Chat GPT (GPT-3) fine-tuning dataset formatChat GPT (GPT-3) 微调数据集格式
【发布时间】:2023-02-25 03:49:41
【问题描述】:

当我们进入人工智能的动荡时代时。 我也把我的水洒进了海里。 因为我是 pythonian,所以所有尝试都是在 python/anaconda 中完成的。

是否有人已经对可传递给 GPT AI 家族的“数据格式”有一些经验?

在文档中推荐使用 OpenAI 工具进行控制。 后跟文档推荐格式(“提示:”,“完成:”) 字符串标记为:

' Hello AI..!! /@>'     ['str' = in quotes, "@>" = unique symbol]

到目前为止,我只能找到简单的例子作为:

Col1             Col2
Prompt:          Completion:
'Text/@>'         'Text/@>'

它有什么办法可以理解更复杂的数据集吗? 效果更暗淡。数据框?

更长的文本是像“str/@>”一样传递的,还是需要一些分区?

【问题讨论】:

    标签: python format dataset openai-api fine-tune


    【解决方案1】:

    如官方OpenAI documentation所述:

    您的数据必须是JSONL文档,其中每一行是一个 对应于训练示例的提示完成对。你可以 使用我们的CLI data preparation tool 轻松将您的数据转换成 这种文件格式。

    这个工具接受不同的格式,唯一的要求是 它们包含提示和完成列/键。你可以传递一个 CSV, TSV、XLSX、JSON 或 JSONL 文件,它会将输出保存到 JSONL 文件准备好进行微调,在指导您完成 建议更改的过程。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-08-16
      • 2022-12-08
      • 2022-12-14
      • 2023-01-11
      • 2020-04-24
      • 1970-01-01
      • 2022-07-19
      • 2021-02-24
      相关资源
      最近更新 更多