【问题标题】:Sharepoint search of external RSS feeds外部 RSS 提要的共享点搜索
【发布时间】:2010-02-10 04:20:20
【问题描述】:

我希望我的共享点站点允许用户在已知的 RSS 提要集合中搜索内容。我从概念上想出了几种方法来做到这一点

  • 从源头抓取提要(哎呀!)
  • 将完整的文章拉入我的sharepoint站点,然后让我的爬虫抓取它
  • 利用现有索引(如 google)
  • 使用类似 google 实用程序的工具(我的偏好)按需搜索完整文章

那么我能否以某种方式从我的 sharepoint 站点允许用户从几十个命名的 rss 提要中搜索完整的文章

谢谢

卡里

【问题讨论】:

    标签: sharepoint search rss feed


    【解决方案1】:

    我不明白为什么从源头抓取提要会出现问题?这似乎是合理的。

    创建内容源以指向提要并选择正确的索引计划是相当容易的。如果这不起作用,那么您可以尝试更复杂的方法。

    请注意,复制其他网站的内容以自行托管可能会涉及版权问题(更不用说在您自己的网站上发布任何煽动性内容的风险)。

    --更新--

    尝试阅读目标网站 robots.txt 以查看(甚至有一个)它是否具有所需的频率。否则,这取决于您要抓取的网站的深度。

    如果您只抓取 rss 提要 xml,我怀疑您可以每小时执行一次,而不会惹恼任何人。否则,如果你深入到每篇文章,你可能想要限制它。这在很大程度上取决于您与目标网站的任何关系以及您要访问的网站类型。

    结帐this article 了解有关 SharePoint 如何处理 robots.txt 的更多信息

    (p.s. 目标网站没有将文章放到网络上,所以没有人会阅读)

    【讨论】:

    • 感谢 Nat,关于抓取提要 - 我正在考虑对目标站点的性能影响。显然各大搜索引擎都这样做,但我的网站不是主要搜索引擎。这种行为是否令人不悦?尽管我的客户提出了建议,但我也没有认真考虑下载内容。但是您提出了其他不这样做的充分理由 - 非常感谢。
    • 您多久考虑一次爬行?
    • 再次感谢纳特。我上周看到了你的编辑,但直到现在才看到这个问题。每天抓取一次外部网站就足够了。
    • 我无法想象它会对每天一次的网站流量产生很大影响。只是不要把它安排在几个小时之外,否则你的结果可能会在某一天返回“网站正在进行定期维护”:)
    【解决方案2】:

    开箱即用的爬虫将尊重 robots.txt,并且对爬虫影响规则的规定将减少 SharePoint 在外部网站上执行打击的机会。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多