使用robots.txt管理网络爬虫

许多年前,要让搜索引擎选择您的网站需要填写表格,注册网站并手动编辑您希望为其选择网站的关键字。随着搜索引擎网络爬虫或蜘蛛的出现,这一过程发生了变化。

什么是网络爬虫?

Web爬网程序是自动程序,可从一个网页到另一个网页的链接跟随Internet进行爬网,将内容编入索引并将其添加到其数据库中。这意味着只要您的网站上有搜索引擎已经知道的另一个网站的链接,它就会随着时间的推移找到您。链接到您的网站的网站越多,发生的速度就越快。

不幸的是,这些爬虫可能是您网站的密集访问者。这是因为他们加载了每个页面和文件以便对其数据库进行分类。爬网程序可能会对您的VPS造成高负载,并可能给访问者造成问题。为了帮助解决这些负载问题,有一种标准化的方法来控制这些爬网程序的行为,方法是将一个名为robots.txt的文件放在您网站的根目录中。但是,没有任何强制遵守此文件的内容。因此,尽管大多数网络搜索引擎爬网程序都会遵守,但某些爬网程序可能不会。

robots.txt格式

robots.txt文件具有特定格式。请参阅以下示例:

用户代理:googlebot

禁止:/ images

允许:/ images /元数据

抓取延迟:2

网站地图:/sitemap.xml

让我们按顺序查看每条指令行:

  • 我们从用户代理行开始:机器人或网络浏览器将用用户代理标识自己,而各种搜索引擎爬虫将具有自己的用户代理。遵循用户代理指令的任何其他指令将仅对给定的用户代理有效。星号(*)的用户代理将被视为是指所有用户代理。在示例文件中,我们的指令与googlebot搜寻器相关。
  • Disallow指令用于告知搜寻器您不希望其加载的目录或文件。需要注意的是,尽管搜寻器在链接到它们后不会加载文件,但仍会在搜索结果中列出它们。因此,它不能用于阻止页面出现在搜索结果中。Disallow可能是所有搜寻器都将支持的唯一指令。因此,在我们的示例中,我们不允许爬网/ images目录。
  • Allow指令可用于在爬网程序可以加载的禁止目录中指定文件或目录。尽管并非所有爬虫都支持此功能,但大多数爬虫都支持。在我们的示例中,我们允许搜寻器将文件加载到/ images / metadata目录中。
  • 下一个指令是crawl-delay,它提供了一个爬行器将在加载下一页之前等待的秒数。这是减慢爬网程序速度的最佳方法,尽管除非站点上的页面很少,否则您可能不希望将该数字设置得太高,因为这将极大地限制爬网程序每天可加载的页面数。
  • 最后,我们拥有sitemap指令,该指令可用于将搜寻器定向到您网站的XML sitemap文件,它还可用于辅助网站索引。

负责网络爬虫

您可以根据需要控制robots爬网程序访问您网站的方式,在robots.txt中填写任意数量的用户代理。从所有爬网程序的一个用户代理部分开始,然后为特定的爬网程序添加单独的部分,当发现它们会给您的网站造成问题时,这是很有意义的。创建robots.txt后,值得对其进行测试以确保其有效。如果语法有错别字或错误,可能会导致搜寻器忽略您为其设置的规则。幸运的是,有许多工具可以对其进行测试,还有主要的搜索引擎(例如Google)提供了测试工具。

0 Reviews ( 隐私政策 out of 隐私政策 )

Write a Review

如有任何问题,请随时联系我。
请在浏览器中启用JavaScript来完成此表单。
订阅我们的网站,与我们一起探索更多精彩内容和独家资讯!

最新文章

相似文章