【发布时间】:2019-11-10 13:51:03
【问题描述】:
我对 pandas 很陌生(几个月),我正在开始构建一个基于 pandas 数据数组的项目。
这样的 pandas 数据数组将包含在一个表中,该表包括文本集合中存在的不同类型的单词(大约 100k 文档和大约 200 个关键词)。
想象一下“汽车”和“摩托车”这个词以及编号为 doc1、doc2 等的文档。
我应该如何安排? a) 每列的名称是文档编号和索引“汽车”和“摩托车”或 b) 反过来;索引是文档编号,列是单词的开头?
我对 pandas 没有足够的了解,无法预见这种选择的后果。而所有的代码都将基于这个决定。
顺便说一句,数组不是静态的,会有更多的文档和更多的词不时地被添加到数组中。
你会推荐什么?甲还是乙?为什么?
谢谢。
【问题讨论】:
-
接受(大得多的)轴是行轴。所以 b.
标签: python pandas indexing row multiple-columns