Chat GPT (GPT-3) 微调数据集格式答案

【问题标题】：Chat GPT (GPT-3) fine-tuning dataset formatChat GPT (GPT-3) 微调数据集格式
【发布时间】：2023-02-25 03:49:41
【问题描述】：

当我们进入人工智能的动荡时代时。我也把我的水洒进了海里。因为我是 pythonian，所以所有尝试都是在 python/anaconda 中完成的。

是否有人已经对可传递给 GPT AI 家族的“数据格式”有一些经验？

在文档中推荐使用 OpenAI 工具进行控制。后跟文档推荐格式（“提示：”，“完成：”）字符串标记为：

' Hello AI..!! /@>'     ['str' = in quotes, "@>" = unique symbol]

到目前为止，我只能找到简单的例子作为：

Col1             Col2
Prompt:          Completion:
'Text/@>'         'Text/@>'

它有什么办法可以理解更复杂的数据集吗？效果更暗淡。数据框？

更长的文本是像“str/@>”一样传递的，还是需要一些分区？

【问题讨论】：

标签： python format dataset openai-api fine-tune

【解决方案1】：

如官方OpenAI documentation所述：

您的数据必须是JSONL文档，其中每一行是一个对应于训练示例的提示完成对。你可以使用我们的CLI data preparation tool 轻松将您的数据转换成这种文件格式。

这个工具接受不同的格式，唯一的要求是它们包含提示和完成列/键。你可以传递一个 CSV， TSV、XLSX、JSON 或 JSONL 文件，它会将输出保存到 JSONL 文件准备好进行微调，在指导您完成建议更改的过程。

【讨论】：