【发布时间】:2017-05-08 11:10:14
【问题描述】:
我能够从 mongo db 集合中加载数据以触发数据帧。我为此使用了 mongo spark 连接器。
我现在想提取数据框中文本字段中的单词,以创建将单词映射到文档的字典。
所以,基本上,提取的单词应该是键,值是文档中的 docId。
我不确定如何从数据框中的文本列中解析和提取单词,以便我可以将它们相应地映射到相应的文档。
映射后,我还想减少它们,以便将单词作为键,将值作为包含该单词的文档列表。
可以帮助我从数据框中的文本列中提取单词的方法/代码。
【问题讨论】:
标签: java mongodb apache-spark