谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

栏目: 软件资讯 · 发布时间: 6年前

外媒 VentureBeat 报道称，谷歌希望将发展数十年的 robots.txt 解析器开源，以推动 REP 成为搜索引擎爬虫的行业标准。机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图 via VentureBeat ）

比如谷歌爬虫（Googlebot）就会在索引某个网站时扫描 robots.txt 文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（SEO）。此外，并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前，互联网档案光就选择了为其“时光机”（Wayback Machine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是，即便 REP 已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF - 一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的 REP 可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“ 服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作，向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于 URI 的传输协议，都可以适用 robots.txt 。且其不再局限于 HTTP，亦可面向 FTP 或 CoAP 。

据悉，开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为 24 小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的 robots.txt，且爬虫不会因此而让网站超载。

例如，在 HTTP 的情况下，可使用 Cache-Control 报头来确定缓存时间。而当先前可访问的 robots.txt 文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析 robots.txt 文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了 C++ 库，其支持 Googlebot 在 GitHub 上给出的解析和匹配系统，以供任何人访问。

根据 GitHub 上的发布说明，Google 希望开发者构建自己的解析器，以更好地反映 Google 的 robots.txt 文件的解析和匹配。

活动入口:

Coding敏捷研发 - 研发产出提升20% 5人以下小团队免费

走进Verisign - 互联网根服务器的管理者/.com的守护者

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

计算机动画算法与编程基础

雍俊海 / 清华大学出版社 / 2008-7 / 29.00元

《计算机动画算法与编程基础》整理了现有动画算法和编程的资料，提取其中基础的部分，结合作者及同事和学生的各种实践经验，力求使得所介绍的动画算法和编程方法更加容易理解，从而让更多的人能够了解计算机动画，并进行计算机动画算法设计和编程实践。《计算机动画算法与编程基础》共8章，内容包括：计算机动画图形和数学基础知识，OpenGL动画编程方法，关键帧动画和变体技术，自由变形方法，粒子系统和关节动画等。一起来看看《计算机动画算法与编程基础》这本书的介绍吧!

码农工具

谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

活动入口:

计算机动画算法与编程基础

JSON 在线解析

Markdown 在线编辑器

HEX HSV 转换工具