欢迎光临
我们一直在努力

robots.txt正确写法

   网站或多或少都存在一些对排行没意义甚至有害的页面。关于站长来说是不希望被查找引擎检索的。而robots.txt文件则承当了站长这个自愿的表达功用。当蜘蛛访问网站会优先抓取robots.txt,遵照站长配备的规则不再抓取不利于SEO的内容。
robots.txt正确写法插图
  robots.txt?
  robots.txt文件方位
  robots文件一般放置于根目录下
  robots.txt文件格式
  Disallow:该项的值用于描绘不希望被访问的一组URL
  Allow:该项的值用于描绘希望被访问的一组URL
  User-agent:该项的值用于描绘查找引擎robot的姓名
  例如:
  User-Agent:YisouSpider // 配备YisouSpider
  Disallow: / // 不容许YisouSpider抓取网站任何内容
  User-Agent:* // 配备全部查找引擎
  Allow: / // 容许抓取网站任何内容
  更多
  Disallow: /abc //阻止抓取含abc目录及子目录的全部页面
  留心:有些当地注释为“阻止抓取abc目录及子目录中的内容”baidu官方有举例,"Disallow:/help"阻止robot访问/help.html、/helpabc.html、/help/index.html
  Disallow: /abc/ //阻止抓取含abc目录的全部页面
  baidu官方有举例,"Disallow:/help/"则容许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
  robots.txt通配符的运用
  "*" 匹配0或多个恣意字符
  "$" 匹配行结束符。
  举例:
  Disallow: /*?* //阻止抓取网站中全部的动态页面
  Disallow: /*.htm$ // 阻止抓取全部以。htm为后缀的URL页面 /abc.htm/index 不匹配
  差异于Disallow: /*.htm // /abc.htm/index 也匹配
  更多robots.txt,可以参照baidu站长站长途径关于robots.txt
  网站哪些内容不建议被抓取
  关于这个思想这个小白也懂的不多,一般取决于内容是不是利于SEO的原则。例如,我博客的查找效果页,没做好优化的tags页都阻止抓取了。而关于公司站来说,假设不方案可以优化公司名称的关键字,关于、联络、公司新闻等一些内容都可以考虑阻止
  

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

分享到: 生成海报