【发布时间】:2021-06-29 13:06:54
【问题描述】:
我目前正在测试如何分析包含大量数据(如 30000 条记录)的大型 CSV 文件 下图是我想提取“动画”、“戏剧”、“喜剧”等词的栏目的一部分。
我建议的步骤如下:
- 打开 CSV 文件并将其读取为 json?以便数据保存在列表中?
- 使用 for 循环遍历整个列(我不确定这部分)
- 删除列表?或提取措辞?
以下是 2 列,还有更多列,但我想先尝试提取单词。
样本数据:
[{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]
[{'id': 12, 'name': 'Adventure'}, {'id': 14, 'name': 'Fantasy'}, {'id': 10751, 'name': 'Family'}]
[{'id': 10749, 'name': 'Romance'}, {'id': 35, 'name': 'Comedy'}]
[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'name': 'Drama'}, {'id': 10749, 'name': 'Romance'}]
[{'id': 35, 'name': 'Comedy'}]
[{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 18, 'name': 'Drama'}, {'id': 53, 'name': 'Thriller'}]
[{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 18, 'name': 'Drama'}, {'id': 53, 'name': 'Thriller'}]
[{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 18, 'name': 'Drama'}, {'id': 53, 'name': 'Thriller'}]
[{'id': 35, 'name': 'Comedy'}, {'id': 10749, 'name': 'Romance'}]
[{'id': 28, 'name': 'Action'}, {'id': 12, 'name': 'Adventure'}, {'id': 18, 'name': 'Drama'}, {'id': 10751, 'name': 'Family'}]```
【问题讨论】:
-
您好,能否请您发布您目前编写的代码并复制粘贴部分数据。所以有人可以重现你的问题。
-
"打开 csv 文件并以 json 格式读取?"这没有任何意义。
-
据我所知,您的 csv 不是 csv。它看起来像一个 json-lines 格式,但有一个标题,所以不是真正的 json-lines。但是如果你扔掉标题,它可能是 json-lines。什么创建了这个文件?
-
我其实是从 kaggle 下载了这个文件,然后从 IMDB 中抓取了电影数据,然后将它们合并到一个文件中。
-
对不起,我是编码新手,所以我不知道如何实现这个..
标签: python json pandas list csv