【发布时间】:2019-07-08 18:54:32
【问题描述】:
我创建了一个数据框,其中列作为不同的文档,行作为这些文档的特征,如下所示:
还有更多文档和约 70 多个功能。我想将 NaN 值替换为 True 或保留为 NaN,具体取决于文档是否包含特征(行)。
假设:
t1_list = ['date', 'review_score']
然后,数据帧中 t1 下的前两行将显示为 True 和 course_id,其余行将通过检查 t1_list 的元素与当前行保持 NaN。
每个“文档”都有一个对应的列表,类似于上面列出的包含该文档特征的列表。我本质上只是创建一个带有 True/NaN 值的大型矩阵,以便轻松查看哪些文档包含或不包含相同的特征。因此,如果当前行名包含在相应的列表中,请将 NaN 替换为 True。
【问题讨论】:
-
我明白你在问什么。但你需要更具体。请提供minimal reproducible example
-
无论其价值如何,许多(大多数?)分析的结构都是这样的,即您的观察单位(文档)将位于行中,并且该单元的属性(文档特征)将在列中。
-
@BrendanCox 这是要求完成的方式
-
您的文档存储在任意数量的变量中?如果您将它们存储在字典中,您的生活可能会更轻松:
d = {'t1: ['date', 'review_score'], 't2': ...}