您所在的位置:首页 > SEO知识 >robots.txt协议怎么写,robots文件书写技巧全面解析!

robots.txt协议怎么写,robots文件书写技巧全面解析!

strawSEO头像
创始人 稻草SEO
2019/8/3 11:19:51 阅读 23

  Robots.txt文件就是网站根目录下面的纯文本文件,是蜘蛛索引网站时第一个要读取的文件,它用于指定spider在网站上的抓取范围。稻草SEO可以用来做优化减少无效页面的收录。

  第一:如何正确书写robots.txt文件,robots.txt文件的书写格式是什么?

  要想正确的书写robots文件,稻草SEO认为首页要对文件的基本函数进行了解:

  User-agent:在后面加上* 意思是允许任何搜索引擎对网站进行抓取;User-agent: Baiduspider意思是允许百度搜索引擎对网站进行抓取,如果网站中只写了这个属性,那就表明此网站只接受百度蜘蛛的抓取,其他蜘蛛不可以索引。

  Disallow:这个函数的意思是静止蜘蛛访问函数后面的网站目录,如果网站所有的都允许那就写:如果都允许收录: Disallow:,像淘宝网的文件中写到,禁止百度蜘蛛的抓取,网站任何位置都不允许抓取。

  Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

  使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

  "*" 匹配0或多个任意字符

  "$" 匹配行结束符。

  第二:设置Robots.txt文件时应注意哪些事项?

  1、作为搜索引擎最先访问的目录,过长的robots文件也会影响蜘蛛的爬取速度,所以对于禁止搜索引擎的网页,可以适度的去使用noffollow标记,使其不对该网站传递权重。

  2、在robots设置当中关于Disallow当中/和//的区别。举例:Disallow; /a 与Disallow: /a/的区别,很多站长都见过这样的问题,为什么有的协议后加斜杠,有的不加斜杠呢?笔者今天要说的是:如果不加斜杠,屏蔽的是以a字母开头的所有目录和页面,而后者代表的是屏蔽当前目录的所有页面和子目录的抓取。

  通常来讲,我们往往选择后者更多一些,因为定义范围越大,容易造成“误杀”。

  3、对于Disallow和Allow的设置是有先后顺序之分的,搜索引擎会根据第一个匹配成功的Allow与Disallow来确定首先访问那个url地址。

  4、已经删除的目录屏蔽不建议使用Robots.txt文件屏蔽。很多站长往往删除一些目录后,怕出现404问题,而进行了屏蔽,禁止搜索引擎再抓取这样的链接。事实上,这样做真的好吗?即使你屏蔽掉了,如果之前的目录存在问题,那么没有被蜘蛛从库中剔除,同样会影响到网站。

  建议最佳的方式是:将对应的主要错误页面整理出来,做死链接提交,以及自定义404页面的处理,彻底的解决问题,而不是逃避问题。

  5、在robots设置当中“*”和“$”的设置,其中”$” 匹配行结束符。”*” 匹配0或多个任意字符。

  编辑于 2019-07-18 14:40:45

  南不归 北未还

  终是黄粱梦一场,你是缘分也是劫

  0人赞同了该回答

  一、什么是robots.txt文件?

  robots协议(也称为爬虫协议、爬虫规则、机器人协议 等)也就是robots.txt,网站通过robots协议告诉搜索 引擎哪些页面可以抓取,哪些页面不希望被抓取。

  二、有什么作用

  Robots协议是网站国际互联网界通行的道德规范,其 目的是保护网站数据和敏感信息、确保用户个人信息和 隐私不被侵犯。

  因其不是命令,故需要搜索引擎自觉遵守。

  淘宝的robots.txt

  淘宝的robots.txt

  2.京东的robots.txt

  3.百度站长平台创建robots

  三、Robots.txt放置位置

  Robots.txt文件应该放置在网站根目录下

  例如:稻草SEO认为当spider访问一个网站(http://www.xxx.com)时,首先会检查该网站中是否存在http://www.xxx.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

  四、Robots.txt文件的写法

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  Sitemap: 网站地图 告诉爬虫这个页面是网站地图

  Robots协议(也叫爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面是可以抓取的,哪些页面是不能抓取的。

  搜索引擎爬虫在访问网站的时候,首先会寻找站点根目录中有没有 robots.txt文件,如果有这个文件就根据文件的内容确定网站收录的范围,如果没有就按默认访问以及收录所有页面。另外,当爬虫发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

  robots文件该怎么写?

  记住写robots的文件名必须全部用小写!

  User-agent:该项的值用于描述搜索引擎robot的名字,一般后面用*来表示,代表支持全部搜索引擎。

  Disallow:该项的值用于描述不希望被访问的一组URL,

  Allow:该项的值用于描述希望被访问的一组URL

  robots.txt文件的写法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有的动态页面

  Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  稻草SEO认为robots在SEO中的作用

  1.死链接提交,如果网站中出现了死链接,是对我们网站的SEO有较大影响的,这时候可以利用robots文件,禁止抓取这些死链接,然后提交到百度站长的死链提交工具,从而解决这个问题。

  2.robots.txt放网站xml地图:Sitemap:url/sitemap.xml,告诉蜘蛛我们的网站地图在哪里,提升搜索引擎的抓取效率

  3.禁止搜索引擎抓取我们不想被抓取的文件和页面。

  Disallow:/ab/adc.html?严禁爬去ab文件夹名称下边的adc.html文档。

  Allow:?/cgi-bin/ 这儿界定是容许爬寻cgi-bin文件目录下边的文件目录

  Allow:?/tmp?这儿界定是容许爬寻tmp的全部文件目录

  Allow:?.htm$?仅容许浏览以”.htm”为尾缀的URL。

  Allow:?.gif$?容许爬取网页页面和gif文件格式照片

  robots在SEO中的功效

  1.死链递交,假如网址中出现了死链,是对人们网址的SEO有很大危害的,此刻能够运用robots文档,严禁爬取这种死链,随后递交到百度站长的反向链接递交专用工具,进而处理这一难题。

  2.robots.txt放网址xml地形图:Sitemap:url/sitemap.xml,告诉他蛛蛛人们的sitmap在哪儿,提高百度搜索引擎的爬取高效率

  3.严禁百度搜索引擎爬取人们不愿被爬取的文档和网页页面。

  说到robots人们要看1个事例:

  说到百度搜索和淘宝网,迫不得已提事情,2009年,马云爸爸干了个出现异常霸气侧漏的决策,如果说淘宝网在robots.txt协议书中屏蔽掉百度爬虫的爬取,这也就是说为何淘宝网店没法根据网页搜索造成得到总流量的缘故,对于马云爸爸的表述是百度搜索产生的总流量全是废弃物总流量,没有转换率,只有确实是那样的吗?

  百度搜索在2009年很低调的发布了百度有啊网购平台,志向变成最好是的电子商务平台,变成淘宝网的立即敌人,应对这般强劲的敌人,马云爸爸务必在其扩张以前杀死他,屏蔽掉网站收录淘宝网能够造成顾客在买东西以前不容易在百度搜索中检索商品类名字,例如牛仔裤子、运动裤、女裙等,由于淘宝网早已强劲到让顾客把淘宝网和网上购物这2个词等同于的程度,当客户已不百度搜索上边检索产品名字,那麽百度搜索就将丧失网上购物这方面销售市场。事实上马云爸爸的这招很取得成功,让百度搜索失去网上购物销售市场,击败了百度有啊,百度有啊没多久就贴近关掉情况了。

  淘宝网的robots协议书:

  User-agent:?Baiduspider

  Disallow:?/

  User-agent:?baiduspider

  Disallow:?/

  百科对robots的界定:Robots协议书(也称之为网络爬虫协议书、智能机器人协议书等)的全名是“爬虫技术清除规范”(Robots?Exclusion?Protocol),网址根据Robots协议书告诉他百度搜索引擎什么网页页面能够爬取,什么网页页面不可以爬取。简易而言就是说网址和百度搜索引擎签定的1个协议书,协议书里边的相对路径不必爬取百度收录。

  需不需要有robots协议书

  Robots协议书也就是说robots.txt文本文档,当1个检索蛛蛛浏览1个站名时,它会最先查验该站名主目录下是不是存有robots.txt。假如存有,检索网络爬虫就会依照该文档中的内容来明确浏览的范畴;假如robots.txt文档找不到,检索网络爬虫将会爬取网址上全部没有被动态口令维护的网页页面。

  网址里边有低品质、死链内容那样的提议屏蔽掉,百度搜索假如爬取你的许多低品质网页页面会拉低网址的品质减少权重值危害百度搜索引擎对你网址的印像,例如男人女人刚开始谈恋爱都是把不太好的一边藏起来,也有网站后台管理vip会员隐私保护通常都屏蔽掉。

  robots协议书写法有哪些

  User-agent:此项的值用以叙述百度搜索引擎robot的姓名。在"robots.txt"文档中,假如有好几条User-agent纪录,表明有好几个robot会遭受"robots.txt"的限定,对该文档而言,最少要有这条User-agent纪录。假如此项的值设成*,则对一切robot均合理,在"robots.txt"文档中,"User-agent:*"那样的纪录只有有这条。

  Disallow:此项的值用以叙述不期待被浏览的1组URL,这一值能够是这条详细的相对路径,还可以是相对路径的非前所未有缀,以Disallow项的值打头的URL不容易被?robot浏览。

  Allow:此项的值用以叙述期待被浏览的1组URL,与Disallow项类似,这一值能够是这条详细的相对路径,还可以是相对路径的作为前缀,以Allow项的值打头的URL?是容许robot浏览的。

  "*"?通配符,配对0或好几个随意空格符。

  "$"配对行结束符。

  Sitemap?sitmap相对路径

  稻草SEO认为百度搜索会严格执行robots的有关协议书,温馨提醒区别您不愿被爬取或百度收录的文件目录的大写,百度搜索会对robots中所作的文档和您不愿被爬取和百度收录的文件目录做精准配对,不然robots协议书没法起效。

  举例子

  例1:严禁全部百度搜索引擎浏览网址的一切一部分

  User-agent:?*

  Disallow:?/

  例2:容许全部的蛛蛛浏览网址一切一部分你还可以创建1个空文档robots.txt

  User-agent:?*

  Allow:?/

  例3:只严禁某1个蛛蛛浏览您的网址

  User-agent:?Baiduspider

  Disallow:?/

  例4:只容许某1个蛛蛛浏览您的网址

  User-agent:?Baiduspider

  Allow:?/

  User-agent:?*

  Disallow:?/

  例6:严禁蛛蛛爬取特殊的相对路径

  User-agent:?*

  Disallow:?/aaa/?严禁全部蛛蛛浏览"aaa"相对路径下的文档

  Disallow:?/bbb/?严禁全部蛛蛛浏览"bbb"相对路径下的文档

  Disallow:?/aaa/ccc/?严禁全部蛛蛛浏览"aaa"下边的ccc相对路径

  Disallow:?/aaa/*.html?严禁浏览aaa相对路径下的全部带.html为尾缀的相对路径

  Disallow:?/*?*?严禁浏览网址中全部的带疑问相对路径即动态性网页页面

  Disallow:?/*?$?严禁浏览网址以疑问末尾的一切相对路径

  Disallow:?/*.php$?严禁浏览以.php为末尾的一切相对路径

  例7:仅容许浏览某一特殊的相对路径

  User-agent:?*

  Disallow:?/

  Allow:?/*.html?只容许浏览网址以?.html?为尾缀的相对路径

  例8:严禁爬取某类文件格式照片

  User-agent:?*

  Disallow:?/*.jpg$

  Disallow:?/*.gif$

  Disallow:?/*.png$

  Robots协议书的查验

  稻草SEO认为网址的robots协议书是1个txt文本文档,robots.txt文档写好后要放进网址的主目录,能够根据浏览相对路径:你的网站域名/robots.txt来查验准确性,能够在百度搜索的站长平台查验协议书恰当是否,一起把sitmap相对路径加进最好是,有益于蛛蛛爬去和百度收录您的网页页面。

  Robots协议书的查验

  Robots协议书撰写常见问题

  robots协议书里的面首字母要大写,英文字母后边的灶具务必显示英文情况;

  灶具后边"/"以前也有空格符,在"/"后边假如仅仅屏蔽掉某一特殊相对路径,千万别还有空格符,不然百度搜索引擎就会觉得你也是屏蔽掉全部网址。

  稻草SEO认为期待百度搜索引擎网站收录上全部内容,切勿创建robots.txt文档。

  这儿差别一下下“Disallow:?/aaa/'和"Disallow:?/aaa",两者它是屏蔽掉aaa后边的相对路径不被蛛蛛爬取到,而前者则表达连在


预约深圳SEO顾问添加微信号:xm18331078363 免费SEO诊断!
© 著作权归深圳稻草SEO所有
strawSEO简介
深圳稻草SEO 博主
SEO实战派细节控,擅长用算法解决关键词排名问题,SEO营销运营一体化!
一颗稻草:可以救人性命,亦能压死骆驼!思路决定出路,做SEO亦是如此!
评论信息
我要评论
深圳seo案例>
深圳SEO技术热推 >
友情链接: 深圳稻草SEO 站长SEO工具 卢松松 百度百科 搜外seo 服务器租用 SEO培训 唐山水泥 研报 西安seo 小红书推广 深圳seo博客 深圳网站优化博客