什么是Robots.txt文件?它有什么作用?
Robots.txt 是网站里的一个文件,它告诉搜索引擎抓取工具(蜘蛛)禁止或允许抓取网站的哪些内容。主流搜索引擎(包括 Google、Bing 和 Yahoo)都能够识别并尊重 Robots.txt的要求。
如需查看网站是否有Robots文件,请访问网址:域名/robots.txt,譬如https://xxx.com/robots.txt, 下图的示例,是一个 WordPress网站安装完Rank math SEO插件自动生成的robots文件及其内容。
搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。注意:网站的robots.txt文件一定要存放在网站的根目录。
robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /
禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
允许访问特定目录中的部分url
User-agent: *
Allow: /158
Allow: /joke
禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*
仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
屏蔽404页面
Disallow: /404.html
屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
Disallow: /158/
屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX123
/123.html
我们要屏掉/XXX123 页面,代码如下:
Disallow: /XXX
告诉搜索引擎你的sitemap.xml地址
具体代码如下:
Sitemap: 你的sitemap地址ap: 你的sitemap地址