企业网站常用的robots.txt文件设置-neatmaster518.com-深圳易捷网络快捷

企业网站常用的robots.txt文件设置

信息来源：深圳市易捷网络科技有限公司
信息发布时间：2025/4/4

什么是Robots.txt文件？它有什么作用？

Robots.txt 是网站里的一个文件，它告诉搜索引擎抓取工具（蜘蛛）禁止或允许抓取网站的哪些内容。主流搜索引擎（包括 Google、Bing 和 Yahoo）都能够识别并尊重 Robots.txt的要求。

如需查看网站是否有Robots文件，请访问网址：域名/robots.txt，譬如https://xxx.com/robots.txt, 下图的示例，是一个 WordPress网站安装完Rank math SEO插件自动生成的robots文件及其内容。

搜索引擎来网站抓取内容的时候，首先会访问你网站根目录下的一个文本文件robots.txt，搜索引擎机器人通过robots.txt里的说明，来理解该网站是否可以全部抓取，或只允许部分抓取。注意：网站的robots.txt文件一定要存放在网站的根目录。

robots.txt文件举例说明

禁止所有搜索引擎访问网站的任何内容

User-agent: *

Disallow: /

禁止所有搜索引擎抓取某些特定目录

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

允许访问特定目录中的部分url

User-agent: *

Allow: /158

Allow: /joke

禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*

仅允许百度抓取网页和gif格式图片，不允许抓取其他格式图片

User-agent: Baiduspider

Allow: /*.gif$

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.png$

Disallow: /*.bmp$

屏蔽404页面

Disallow: /404.html

屏蔽死链

原来在目录为/158下的所有链接，因为目录地址的改变，现在都变成死链接了，那么我们可以用robots.txt把他屏蔽掉。

Disallow： /158/

屏蔽动态的相似页面

假设以下这两个链接，内容其实差不多。

/XXX123

/123.html

我们要屏掉/XXX123 页面，代码如下：

Disallow： /XXX

告诉搜索引擎你的sitemap.xml地址

具体代码如下：

Sitemap：你的sitemap地址ap：你的sitemap地址

企业网站常用的robots.txt文件设置