谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

栏目: 软件资讯 · 发布时间: 5年前

外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准,几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

(截图 via VentureBeat

比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描 robots.txt 文件,以确定其应该忽略掉哪些部分。如果根目录中未包含该文件,那搜索引擎就会默认索引(index)全站内容。

值得一提的是,,该文件不仅可以用于提供直接的爬虫索引,还可以被用来填充一些关键字,以实现“搜索引擎优化”(SEO)。此外,并非所有抓取 工具 都会严格遵从 robots.txt 文件。

比如几年前,互联网档案光就选择了为其“时光机”(Wayback Machine)归档工具提供支持,另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是,即便 REP 已经成为了默认的实施标准,但它实际上从未成为真正的互联网标准,正如互联网工程任务组(IETF - 一家非营利性开放标注组织)所定义的那样。

为了推动这项转变,谷歌正在积极参与行动。这家搜索巨头表示,当前的 REP 可以被“解释”,但并不总是涵盖边缘化的案例。

作为补充,谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时,爬虫该如何处理“ 服务器 出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则?

谷歌在一篇博客文章中写到:“对于网站所有者来说,这是一项极具挑战性的问题。因为模糊的事实标准,让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验,而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作,向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌,但却是提供了一些指引。比如任何基于 URI 的传输协议,都可以适用 robots.txt 。且其不再局限于 HTTP,亦可面向 FTP 或 CoAP 。

据悉,开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小,可确保每个连接的打开时间不会太长,从而减轻不必要的服务器压力。

另外,新的最大缓存时间被设置为 24 小时(或可用的缓存指令值),使得网站所有者能够随时灵活地更新他们的 robots.txt,且爬虫不会因此而让网站超载。

例如,在 HTTP 的情况下,可使用 Cache-Control 报头来确定缓存时间。而当先前可访问的 robots.txt 文件由于服务器故障而变得不可用时,则会在相当长的时间段内不再检索该网站。

这里需要点明的是,抓取工具可以用不同的方式去解析 robots.txt 文件中的说明,这可能会导致网站所有者的混淆。

为此,谷歌特地推出了 C++ 库,其支持 Googlebot 在 GitHub 上给出的解析和匹配系统,以供任何人访问。

根据 GitHub 上的发布说明,Google 希望开发者构建自己的解析器,以更好地反映 Google 的 robots.txt 文件的解析和匹配。

谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

图解网络硬件

图解网络硬件

[日] 三轮贤一 / 盛荣 / 人民邮电出版社 / 2014-7 / 69.00元

本书详细介绍了计算机网络硬件的相关知识,在对硬件设备、相关技术及规范进行详尽考据和整理的同时,侧重工程实践,重点讲述了在实际网络建设工程中真实使用的网络硬件设备及其相关背景知识,能够帮助读者深入理解计算机网络在工程实践中某些容易混淆的概念,如L3交换机和路由器等。 本书在讲解的同时,还辅以丰富的图例,使计算机网络设备的真实情况一目了然,同时深入浅出地介绍了原本复杂抽象的计算机网络术语,因此对......一起来看看 《图解网络硬件》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具