【发布时间】:2021-07-29 19:38:48
【问题描述】:
我有一个 .csv 文件,我想将其转换为 .jsonl 文件。
我找到了 Pandas to_json 方法:
df = pd.read_csv('DIRECTORY/texts1.csv', sep=';')
df.to_json ('DIRECTORY/texts1.json')
但是,我不知道将其转换为 .jsonl 格式的功能。我该怎么做?
【问题讨论】:
-
什么是
.jsonl?没有这样的标准或文件格式。有很多尝试劫持将未缩进的 JSON 文档存储在单独的行中的常见做法,这只是 不是 任何类型的标准 - 您只需将未缩进的 JSON 字符串附加到末尾一个文件 -
正如我所说,
a lot of attempts to hijack a common practice。只需将 JSON 字符串附加到所需文件的末尾即可。这就是重点。您只需要读取到下一个换行符即可读取 JSON 文档,而不是读取整个文件。 -
事实上,
ndjson.org出现在jsonlines.org之前,并且包含与历史上的json.org站点相同的文本,与 Douglas Crockford 或 ECMA 没有任何关系 -
从this answer可以看到
to_json如果使用orient='records', lines=True,可以将每一行写在单独的行中。来自to_json docs:If ‘orient’ is ‘records’ write out line delimited json format. Will throw ValueError if incorrect ‘orient’ since others are not list like.
标签: python json pandas csv data-conversion