【发布时间】:2017-09-09 21:09:32
【问题描述】:
语言本身并不重要,但我想我会坚持使用 Javascript。
基本上,我每个月都有数千个“cmets”,并希望通过在这些 cmets 中搜索 10,000 个单词来通过自动化进行一个天真的幸福“评估”(每条评论的平均字数为 21 个单词,到目前为止的所有内容)。
公式的工作方式(从 Hedonometer 借用)- 取文本中每个单词的“幸福”分数(如果在 10k 列表中找到)并取平均值。
我会测试一些东西,也许会在此处编辑结果,但我什至不确定从哪里开始。似乎是非常繁重的数据提升(当然,每个评论只需要完成一次)——也许它更适合 R 或 SQL(可能不是),但不确定。
我相信这个问题有时被称为“词袋”或“词频饱和”。
【问题讨论】:
-
“最高效”取决于一系列因素......
-
是的,阅读并了解到快速字符串搜索方法非常复杂。唔。也许我会在维基百科上一些更简单的方法,看看处理时间是否可以接受。
标签: javascript algorithm search text