WordPress网站robots的正确写法

在网站根目录中,存在一个至关重要的文件 robots.txt。这个文本文件负责指导搜索引擎对页面的抓取和收录,指定哪些页面可以被收录,哪些不可以。因此,正确编写 robots 文件对于搜索引擎优化至关重要。

默认的 robots 文件

WordPress 博客程序默认会自动生成一个简单的 robots 文件,内容如下:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

然而,这个默认文件明显不够完善,无法满足网站搜索引擎优化的需求。因此,手动编写 robots 文件成为建站一个重要的工作。

robots 的基本语法

要编写 robots 文件,首先需要了解其基本语法。

文件头部规则

robots 文件的开头使用 User-agent: 指定搜索引擎蜘蛛。如果要针对百度搜索蜘蛛,可以输入 User-agent: Baiduspider,而要对所有搜索引擎起作用,则使用 User-agent: *

Disallow 规则

Disallow: /abc 表示禁止访问和收录 abc.phpabc.html 文件以及 abc 文件夹下的所有文件。Disallow: /abc/ 则仅禁止访问 abc 文件夹下的所有文件,而不限制 abc.phpabc.html 文件。

Allow 规则

Allow 规则与 Disallow 相反,表示允许访问和收录指定的文件或文件夹。

*$ 规则

  • * 表示通配符。例如,Disallow: /cgi-bin/*.htm 表示禁止收录 cgi-bin 文件夹下的所有 .htm 后缀的文件。
  • $ 用于指定文件后缀。例如,Disallow: /*.css$ 表示禁止收录所有以 .css 为后缀的文件。

Sitemap 规则

Sitemap 用来告诉搜索引擎网站地图的位置。例如,Sitemap: https://www.baidu.com/sitemap.xml

WordPress 的 robots 编写

WordPress 的结构简单易懂,因此编写 robots 文件较为简单。

避免收录 WordPress 系统文件

为了避免收录 WordPress 系统文件,需要添加以下规则:

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes

请注意,后两条规则是为了禁止收录插件目录和模板目录。

避免收录重复的内容

为了避免收录重复的内容,需要添加以下规则:

Disallow: /feed
Disallow: /articles/*/feed
Disallow: /tag/
Disallow: /category/
Disallow: /page/
Disallow: /*?replytocom=

这些规则可以禁止收录 feed 源、tag 标签页、文章目录、翻页和评论页面等。

指定站点地图

如果有站点地图,需要添加以下规则:

Sitemap: https://www.baidu.com/sitemap.xml

将所有规则合并后,完整的 robots 文件内容如下:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Sitemap: https://www.baidu.com/sitemap.xml

将此文件保存为 robots.txt 并上传到网站根目录后,需要检查其是否生效。可以通过在地址栏输入 域名/robots.txt 来验证是否正确。

评论区
头像