先来简单介绍什么是Robots。Robots全称Robots协议,也成为爬虫协议或机器人协议。Robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分,它的作用在于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
我们只需把Robots协议保存txt文档中,并命名 Robots.txt 上传网站根目录。搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 Robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。
如果想访问Robots文件,在浏览器输入:https(http)://网站域名/robots.txt,这样就能看到网站Robots文件里的内容了。
Robots协议基本命令:
User-agent:
User-agent:是用来指定搜索引擎的,这里我们网站一般是允许搜索引擎访问的,因此书写为“User-agent: * ”,这里的“ * ”是通用命令符。
Disallow:
在上面我们已经说了“Disallow: ”就是禁止抓取的意思,使用“Disallow: ”我们告诉搜索引擎那些网站内容不允许收录和抓取。
Allow:
“Allow:”是允许的意思,也就是我使用“Allow:”可以告诉搜索引擎那些网站内容可以被收录抓取。
Sitemap:
“Sitemap:”用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。
既然我们知道Robots协议基本命令,那么WordPress 如何设置Robots文件对网站优化更好?可以参考以下Robots协议配置。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /attachment/ Allow:/wp-content/uploads/ Allow:/wp-content/plugins/ Sitemap:https://网站域名/sitemap.xml
上面这些规则简单的介绍下:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
8、Allow: /wp-content/uploads/
允许搜索引擎抓取资源文件,这个很重要,可以用来判断移动设备兼容性
9、Sitemap: http://网站域名/sitemap.xml
sitemap.xml使网站能够告知搜索引擎网站中可供抓取的网址,以便于搜索引擎百度,谷歌等更方便地抓取网站。而sitemap.xml是遵守该协议的包含了一个网站所有链接的xml格式文件。
本文来自投稿,不代表老米博客立场,如若转载,请注明出处:https://www.laomiseo.com/3487.html
老米博客转载的文章、资料及相关图片,其版权均有原作者或原刊载媒介拥有,未经版权所有人同意,任何机构或个人不得擅自将其作为商业用途。
本站文章侵犯了原作者的权益,请联系我们(jin654@163.com),我们会立即更正或者删除有关内容。
本站拥有对此声明的最终解释权。