【问题标题】:How stop bots from crawling or indexing an Angular app如何阻止机器人抓取或索引 Angular 应用程序
【发布时间】:2019-10-28 09:08:21
【问题描述】:

我想发布一个 Angular 应用程序用于测试目的,但我想确保该网站不会被机器人抓取或索引。

我假设(可能是这样!)我会在我的 index.html 页面上添加我的<meta> 标签,并在我的根目录中添加一个 robots.txt 文件?

这些是我的元标记:

<meta name="robots" content="noindex,nofollow">
<meta name="googlebot" content="noindex" />

这是我的 robots.txt 文件的内容:

User-agent: *
Disallow: /

提前谢谢你!

【问题讨论】:

  • 您提到的解决方案应该可以工作。同时你可以签出这个。 stackoverflow.com/questions/9102914/…。并且您在托管站点中设置了一些规则来阻止 IP 访问您的站点。

标签: html angular robots.txt


【解决方案1】:

使用您指定的 robots.txt 文件足以防止您的网站被robots exclusion standard 后面的机器人索引。使用此 robots.txt,您无需指定元标头,因为机器人首先读取 robots.txt,并且不会解析网站的 HTML 以读取元标记。

当您的 robots.txt 文件通常允许为该页面编制索引但您希望在页面级别将其排除以允许更精细的选择时,将使用元标记。

请注意,一些不常见的爬虫可能不遵守排除标准。如果您确实想限制对测试站点的访问,则应考虑使其仅在身份验证后可访问或仅允许访问某些 IP 地址。

【讨论】:

    猜你喜欢
    • 2012-07-13
    • 2021-09-15
    • 2012-04-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-24
    • 2017-12-05
    相关资源
    最近更新 更多