用谷歌新发布的 Dataset Search 搜 Linus,结果……

栏目: IT资讯 · 发布时间: 7年前

内容简介:昨天,谷歌发布了一款重磅产品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,让用户更容易找到想要的数据集。 当下,许多学科的科学家和越来越多的写手需要与数据打交道,...

昨天,谷歌发布了一款重磅产品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,让用户更容易找到想要的数据集。

用谷歌新发布的 Dataset Search 搜 Linus,结果……

当下,许多学科的科学家和越来越多的写手需要与数据打交道,网上有成千上万的数据存储库,可以访问数百万个数据集,同时世界各个国家与地区政府也在网上公布他们的数据。谷歌表示,Dataset Search 的初衷正是为了能够让人们更加轻松地访问这些数据。

此次发布的 Dataset Search 其实也是 Google 将数据集更进一步纳入产品中的一系列举措之一,上个月我们报导过 Google 该系列举措的另一项,也就是 Google 与 30 位顶级数据记者合作,希望找到以表格形式改进信息呈现的方法,最终在通力合作之下,他们确定了在搜索返回结果中直接直观显示数据表格的方法,使用户更容易找到他们想要的信息。

Google 介绍,Dataset Search 的工作方式与 Google Scholar 类似,首先需要数据集提供者使用 schema.org 标准来描述其数据集,当用户在 Dataset Search 上搜索时,它将在任何托管位置查找相应数据集,包括发布者的网站、数字图书馆与作者的个人网页等。

关于如何将数据集录入 Dataset Search,Google 解释,“基于描述数据集信息的开放标准 schema.org,我们为数据集提供商制定了指南,以 Google(和其它搜索引擎)可以更好地理解页面内容的方式描述其数据。这些指南包括有关数据集的重要信息:数据集创建者、发布时间、数据收集方式、使用数据的条款等。然后我们收集并链接此信息,分析其中同一数据集的不同版本可能在哪里,并找到可能描述或讨论数据集的出版物。”

目前 Dataset Search 属于 beta 版,而且刚刚起步,收录的数据集还不够多,但是按耐不住搜了一下“开源中国”,返回:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

又搜了一下“码云”,返回结果同上。下次再来试试。

自然而然地又搜了一下 “Linus Torvalds”,发现还真有结果,而且返回的是让人哭笑不得的内容:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

搜索结果是一个来自 data.world 的数据集,“Linus Torvalds Rants”是“Linus Torvalds 发飙”的意思,嗯,这很 Linus。

兴奋地点进去(嗯?为什么我要兴奋),果然发现了宝藏:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

原来这个数据集收集了 Linus 从 2012 年到 2015 年间在邮件列表上发过的飙。这里顺便提一下今年 6 月份 Linus 也发了一次大飙:有时候标准就是一坨屎

按照指示,把该“Linus 发飙合集”在工作区打开后是下边这样的,大概感受一下:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

试了一下,数据集中的条目确实可以访问到原始邮件,佩服 Linus 的高产,也为 Dataset Search 点赞,真的太方便了。如果哪天想以 Linus 的发怒为基线来写一个 Linux 内核的发展历程,那这样的搜索神器就帮大忙了。

Google 在国内素有“谷人希”(谷歌,人类的希望)的美誉,此次发布的 Dataset Search 又造福了人类。

再 PK 一次,百度你还能赢吗?


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

引爆社群

引爆社群

唐兴通 / 机械工业出版社华章科技 / 2015-3 / 49

科技延伸媒介,移动互联网技术催生了微信等各种新的媒体;媒介更新人文,新媒介让互联网重回社群时代;人文重塑商业规则,社群时代的商业模式与法则究竟是怎样的?我们应该如何去适应和应对?本书提出的“新4C法则”为此给出了解决方案。关于如何运用这个法则,本书给出了详尽的阐述。但是,要利用好这个法则,需要我们对它有深入的理解。 场景(Context):移动互联网时代场景为王,所有基于移动互联网的产品和服......一起来看看 《引爆社群》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具