在一个网站中,并不是所有的页面都希望被搜索引擎的爬虫收录。为此,可以通过一些特殊的 meta 信息,来调节搜索引擎爬虫的行为。
nofollow
使用方法如下:
<meta name="robots" content="nofollow">
或者,针对页面上某一个具体的链接,也可以加上 nofollow
的标记:
<a href="some-link-to-backend-login-page" rel="nofollow">
有了 nofollow
的标记,搜索引擎的爬虫就不会做进一步的爬取操作了。对于第一种写法,当前页面内所有的链接地址爬虫都不会再去访问了;对于第二种写法,则是这个指定的链接在本次爬取中不会被访问(如果其他地方有引用,且没有加上 nofollow
的标记,搜索引擎依然可能会去访问这个页面)。
一些常见的使用场景:付费访问的页面、不被信任的页面(比如一些留言板快)等。
noindex
如果希望爬虫不要将当前页面的访问结果存储到数据库中用于未来搜索结果的展示,可以使用 noindex
标记。用法如下:
<meta name="robots" content="noindex">
一些常见的使用场景:后台登陆页面、感谢页面(SEO 的价值不大)或是一些内容动态的页面。
noindex nofollow
对于既不希望爬虫进一步访问,也不希望结果被收录的页面,可以将两者都加上:
<meta name="robots" content="noindex nofollow">