【发布时间】:2011-12-30 00:03:01
【问题描述】:
以以下链接为例:http://www.yelp.com/biz/chef-yu-new-york。
在名为“评论亮点”的部分中,根据用户提交的评论突出显示了 3 个短语(辣鸡丁、欢乐时光、特色午餐)。显然,这些是出现频率最高的词组,或出现频率最长的词组,或其他一些逻辑。
他们的官方解释是这样的:
在他们的评论中,Yelpers 经常提到下面的链接短语。 这些不是任何古老的常用短语,它们也是那些 我们的 Yelp 机器人已经确定了独特且良好、快速的方法 描述这个业务。单击任何短语以查看所有 提及它的评论。
我的问题是,他们用什么来挖掘文本输入来获取这些数据点?是基于 Lempel Ziv 的某种算法,还是某种 map reduce?我不是 CS 专业的,所以可能在这里缺少一些基础知识。希望得到一些帮助、理论等。
谢谢!
【问题讨论】:
标签: web-services algorithm search text yelp