【发布时间】:2018-10-01 10:40:51
【问题描述】:
背景: 我将 URL 数据聚合到一个字符串数组中。这种形式的。 [xyz.com,abc.com,efg.com]
1)我使用
根据连续的 Url 计数进行过滤vectored_file(size('agg_url_host')>3)
2)我在下一步用
过滤掉不经常出现的urlCountVectorizer(inputCol="agg_url_host",outputCol="vectors",minDF=10000)
问题是某些行足以在第 1 步中通过我的大小函数,但在我们删除不太频繁的 url 之后却没有。所以我最终得到了带有向量列的行: (68,[],[]) (68,[4,56],[1.0,1.0]) 即使我只想要计数高于 3 的行进行建模。
所以我的问题是我可以在像 countVectorizer 的输出这样的向量对象上运行大小函数吗?或者它们是否有类似的功能可以消除低计数?
也许有一种方法可以从我原来的 'agg_url' 列中创建一个新的字符串数组列,并删除不太频繁的列?然后我可以对其执行 CountVectorizer 。
任何帮助表示赞赏。
【问题讨论】:
标签: python apache-spark pyspark spark-dataframe countvectorizer