在网站根目录中,存在一个至关重要的文件 robots.txt
。这个文本文件负责指导搜索引擎对页面的抓取和收录,指定哪些页面可以被收录,哪些不可以。因此,正确编写 robots 文件对于搜索引擎优化至关重要。
默认的 robots 文件
WordPress 博客程序默认会自动生成一个简单的 robots 文件,内容如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
然而,这个默认文件明显不够完善,无法满足网站搜索引擎优化的需求。因此,手动编写 robots 文件成为建站一个重要的工作。
robots 的基本语法
要编写 robots 文件,首先需要了解其基本语法。
文件头部规则
robots 文件的开头使用 User-agent:
指定搜索引擎蜘蛛。如果要针对百度搜索蜘蛛,可以输入 User-agent: Baiduspider
,而要对所有搜索引擎起作用,则使用 User-agent: *
。
Disallow 规则
Disallow: /abc
表示禁止访问和收录 abc.php
、abc.html
文件以及 abc
文件夹下的所有文件。Disallow: /abc/
则仅禁止访问 abc
文件夹下的所有文件,而不限制 abc.php
和 abc.html
文件。
Allow 规则
Allow
规则与 Disallow
相反,表示允许访问和收录指定的文件或文件夹。
*
和 $
规则
*
表示通配符。例如,Disallow: /cgi-bin/*.htm
表示禁止收录cgi-bin
文件夹下的所有.htm
后缀的文件。$
用于指定文件后缀。例如,Disallow: /*.css$
表示禁止收录所有以.css
为后缀的文件。
Sitemap 规则
Sitemap 用来告诉搜索引擎网站地图的位置。例如,Sitemap: https://www.baidu.com/sitemap.xml
。
WordPress 的 robots 编写
WordPress 的结构简单易懂,因此编写 robots 文件较为简单。
避免收录 WordPress 系统文件
为了避免收录 WordPress 系统文件,需要添加以下规则:
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
请注意,后两条规则是为了禁止收录插件目录和模板目录。
避免收录重复的内容
为了避免收录重复的内容,需要添加以下规则:
Disallow: /feed
Disallow: /articles/*/feed
Disallow: /tag/
Disallow: /category/
Disallow: /page/
Disallow: /*?replytocom=
这些规则可以禁止收录 feed 源、tag 标签页、文章目录、翻页和评论页面等。
指定站点地图
如果有站点地图,需要添加以下规则:
Sitemap: https://www.baidu.com/sitemap.xml
将所有规则合并后,完整的 robots 文件内容如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Sitemap: https://www.baidu.com/sitemap.xml
将此文件保存为 robots.txt
并上传到网站根目录后,需要检查其是否生效。可以通过在地址栏输入 域名/robots.txt
来验证是否正确。
不要在pve这台宿主机上执行apt install cloud-init -y
不要在pve这台宿主机上执行apt install cloud-init -y
不要在pve这台宿主机上执行apt install cloud-init -y
是在创建的虚拟机镜像上执行