【问题标题】:Information Retrieval :URL hits in a time frame信息检索:时间范围内的 URL 命中
【发布时间】:2013-01-27 06:22:52
【问题描述】:

算法挑战:

问题陈述: 你将如何为类似 Google 的东西设计一个日志系统,你应该能够查询一个 URL 在两个时间范围内被打开的次数。

i/p : start_time , end_time , URL1 o/p : URL1 在开始和结束时间之间打开的次数。

一些规格: 数据库不是最佳解决方案 对于给定的时间戳,一个 URL 可能已被多次打开。 一个 URL 可能在两个时间戳内被打开了很多次。 start_time 和 end_time 可以相隔一个月。 时间可以精确到一秒。

【问题讨论】:

    标签: algorithm information-retrieval


    【解决方案1】:

    一个解决方案:

    散列的散列

    键值 URL Hash----> T1 CumFrequency

    例如:

    亚马逊哈希--> T CumFreq 11 00 am 3(上午 11:00 开放 3 次) 11 15 am 4(在 11:15 am 开 1 次,cumfreq 是 3+1=4) 11 30 am 11(上午 11:30 开 4 次,cumfreq 为 3+4+4=11) i/p : 11 : 10 am , 11 : 37 am , 亚马逊

    可以通过减去最后一个时间戳小于 11:10 即上午 11:00 和最后一个活动时间戳小于上午 11:37 即上午 11:30 来获得 o.p。因此结果是 11-3 = 8 ....

    我们可以做得更好吗?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-12-10
      • 2014-01-04
      • 2017-10-01
      • 2011-09-04
      • 2021-05-09
      • 2020-07-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多