【发布时间】:2017-08-25 23:48:43
【问题描述】:
我刚刚编写了一个脚本,该脚本从数千个 XML 文件中提取了 Dutch Parlement 中的所有语音文本。对于每个说话者,它都会计算说话者说出某些单词的次数。
完成此操作后,我计算了荷兰议会中每个发言者的每个单词的 TF * IDF 值。如果您对此不熟悉,请参阅此链接:TF IDF explanation
所以现在我为荷兰议会中的每个演讲者准备了一本字典,其中键是他所说的单词,值是相应的 TF*IDF 值:
{u'asielzoekers': 0.0034861170591325486,
u'belastingverlaging': 0.0018551991553514675,
u'buma': 0.0020712555982839408,
u'islam': 0.0029519544163739155,
u'moslims': 0.0027958002747301355,
u'ouderen': 0.0022803123245457566,
u'pechtold': 0.0021525864470786928,
u'president': 0.003281844532743345,
u'rutte': 0.0023488684001475584,
u'samsom': 0.0019304632325980841}
现在我想从这些值创建一个 wordcloud。我很快就研究了 amueller 编写的 wordcloud 模块,但据我所知,这个模块不是使用字典,而是使用纯文本。
因此,对于如何根据字典的值创建 wordcloud 的任何帮助将不胜感激。
提前致谢!
【问题讨论】:
-
在github.com/amueller/word_cloud/issues/207 之后,您应该可以在其中执行
WordCloud().generate_from_frequencies(MyData),其中 MyData 是一个字典。 -
@fredtantini - 你的建议对我有用。您应该将其发布为答案并获得一些甜蜜的业力点:)。
标签: python python-2.7 dictionary word-cloud