【问题标题】:Google AdSense bot's algorithm and behaviorGoogle AdSense bot 的算法和行为
【发布时间】:2014-07-07 20:09:16
【问题描述】:

我对 Google AdSense 机器人的算法和网站行为很感兴趣。我没有使用 AdSense,也没有帐户。所以我需要你的帮助来理解:

1) Gbot 不时从网站下载所有页面。我说的对吗?

2) Gbot 不理解动态内容(由 ajax 加载)。所以我必须生成静态内容并在 html 页面中返回它,并且该页面必须为所有用户和 Gbot 显示相同的内容?

3) 由于 (1) 和 (2) 我不能仅将根路径 http://example.com 与某些“主”小部件一起使用。我必须生成独特的页面,例如http://example.com/thread?id=101

4) Gbot 下载页面 (1) 以从中获取(索引)关键字,然后(在其服务器上)存储这些信息,例如通过键/值(其中键是页面路径,值是标签云)。我说的对吗?

5) 当用户在浏览器中打开网站时。集成 html AdSense 的代码会加载一些 JavaScript。正如我通过“谷歌搜索”了解的那样,这个 JavaScript 不会索引页面,而是调用(带有一些参数 key==page_path)到 Google 的服务器并获取适当的广告链接。然后在其框架中显示此广告链接。是正确的行为吗?也许 JavaScript 会对页面内容进行一些本地索引?

6) Gbot 和 AdSense 的 JavaScript 如何使用 cookie?据我了解,AdSense 可以使用 cookie 来显示适当的广告链接。如果是对的,请给我一些用例;)

我知道只有 Google 的工程师知道“真正的”算法。但是你们中的一些人有使用 AdSense 和 AdSense html/javascript 的经验。请纠正我对它的看法;)

非常感谢您的任何建议!!!

附:这个问题对我来说非常重要。这不是一个有趣的问题!所以请不要关闭它;)

【问题讨论】:

    标签: algorithm adsense bots googlebot


    【解决方案1】:

    1) 如果 Googlebot 可以访问这些页面,并且如果它通过链接、XMLSitemaps、Google +1 等了解这些页面,则可以。

    2) Googlebot 现在将发出 AJAX / XHR 请求以了解 AJAX 内容 (http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html)。

    是的,您应该向 Googlebot 显示与用户相同的内容,否则这将被视为伪装,这违反了他们的准则。

    3) 这个问题不清楚。但基本上最好更改 URL,因为 Google 会知道如何单独索引内容。如果您使用的是 AJAX,那么您可能需要像您建议的那样考虑永久链接,或者您可以使用 HTML5 popstate。

    4) 是的,Google 会将页面上的单词编入索引。我不确定他们将其存储为键/值对。我什至不确定他们是否仍在使用 Big Table (http://labs.google.com/papers/bigtable.html) ...但他们很可能使用 Big Table 或类似的系统来存储倒排索引.

    5) Adsense 代码嵌入了 Javascript ... 对于 Google 以前从未见过的新网页,它会尝试根据在网络上找到的有关该网站的信息或可能通过锚文本来投放最相关的广告指向该页面的链接。但是,为了更准确地了解页面内容,Google 会发送一个特定于 AdSense 的机器人来抓取您的页面……有时您会发现它来得非常快,即使您第一次加载页面时也是如此时间。它使用不同于传统 Googlebot 的用户代理...您可以在此处找到所有来自 Google 的用户代理 (http://www.google.com/support/webmasters/bin/answer.py?answer=1061943)

    6) Google 的抓取工具不接受 cookie,也不会将 cookie 传回您的服务器。这与 Google 爬虫的大规模分布式特性有关,这使得维护 cookie 或会话变得极其困难。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-10-04
      • 2013-03-31
      • 1970-01-01
      • 2021-01-28
      • 1970-01-01
      • 2017-10-10
      • 1970-01-01
      相关资源
      最近更新 更多