【发布时间】:2012-12-22 12:44:53
【问题描述】:
问题:
我想通过将他/她的“兴趣”与所有其他人的兴趣进行比较,为特定用户推荐前 10 个最兼容的匹配项。我正在用户之间构建一个无向加权图,其中权重 = 两个用户之间的匹配分数。
我已经有一组 N 个用户:S。对于 S 中的任何用户 U,我都有一组兴趣 I。经过很长一段时间(一周?),我创建了一个具有一组兴趣的新用户 U,并且将其添加到 S。为了为这个新用户生成一个图表,我将新用户的兴趣集 I 与 S 中所有用户的兴趣集进行迭代比较。问题在于这个“所有用户”部分。
让我们来谈谈比较兴趣的功能。对一组兴趣 I 的兴趣是一个字符串。我正在使用 WikipediaMiner 比较两个字符串/兴趣(它使用 Wikipedia 链接来推断两个字符串的相关程度。例如,Billy Jean & Thriller ==> 高匹配,Brad Pitt & Jamaica ==> 低匹配等等)。我也问过question about this(看看是否有比我目前使用的更好的解决方案。
因此,上述功能所花费的时间不可忽略,总的来说,当我们比较数千(可能是数百万?)用户及其数百个兴趣时,将花费大量时间。对于 100,000 个用户,我无法以这种方式在短时间内(
问题:
请提出一种算法、方法或工具,我可以使用它来改善我的情况或解决我的问题。
【问题讨论】:
标签: graph matching graph-algorithm bigdata