【发布时间】:2020-05-23 22:48:53
【问题描述】:
您好,我遇到了一个问题,即我的行中有两列单词数组。
column1, column2
["a", "b" ,"b", "c"], ["a","b", "x", "y"]
基本上我想计算列之间每个单词的出现次数,最终得到两个数组:
[1, 2, 1, 0, 0],
[1, 1, 0, 1, 1]
所以“a”在每个数组中出现一次,“b”在column1出现两次,column2出现一次,“c”只出现在column1,“x”和“y”只出现在column2。以此类推。
我尝试查看 ml 库中的 CountVectorizer 函数,但不确定它是否按行工作,每列中的数组可能非常大?并且 0 值(其中一个单词出现在一个列中,但没有出现在另一个列中)似乎没有得到执行。
任何帮助表示赞赏。
【问题讨论】:
-
你的 spark 版本是什么?
标签: machine-learning pyspark nlp keyword-extraction