用谷歌新发布的 Dataset Search 搜 Linus,结果……

栏目: IT资讯 · 发布时间: 6年前

内容简介:昨天,谷歌发布了一款重磅产品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,让用户更容易找到想要的数据集。 当下,许多学科的科学家和越来越多的写手需要与数据打交道,...

昨天,谷歌发布了一款重磅产品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,让用户更容易找到想要的数据集。

用谷歌新发布的 Dataset Search 搜 Linus,结果……

当下,许多学科的科学家和越来越多的写手需要与数据打交道,网上有成千上万的数据存储库,可以访问数百万个数据集,同时世界各个国家与地区政府也在网上公布他们的数据。谷歌表示,Dataset Search 的初衷正是为了能够让人们更加轻松地访问这些数据。

此次发布的 Dataset Search 其实也是 Google 将数据集更进一步纳入产品中的一系列举措之一,上个月我们报导过 Google 该系列举措的另一项,也就是 Google 与 30 位顶级数据记者合作,希望找到以表格形式改进信息呈现的方法,最终在通力合作之下,他们确定了在搜索返回结果中直接直观显示数据表格的方法,使用户更容易找到他们想要的信息。

Google 介绍,Dataset Search 的工作方式与 Google Scholar 类似,首先需要数据集提供者使用 schema.org 标准来描述其数据集,当用户在 Dataset Search 上搜索时,它将在任何托管位置查找相应数据集,包括发布者的网站、数字图书馆与作者的个人网页等。

关于如何将数据集录入 Dataset Search,Google 解释,“基于描述数据集信息的开放标准 schema.org,我们为数据集提供商制定了指南,以 Google(和其它搜索引擎)可以更好地理解页面内容的方式描述其数据。这些指南包括有关数据集的重要信息:数据集创建者、发布时间、数据收集方式、使用数据的条款等。然后我们收集并链接此信息,分析其中同一数据集的不同版本可能在哪里,并找到可能描述或讨论数据集的出版物。”

目前 Dataset Search 属于 beta 版,而且刚刚起步,收录的数据集还不够多,但是按耐不住搜了一下“开源中国”,返回:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

又搜了一下“码云”,返回结果同上。下次再来试试。

自然而然地又搜了一下 “Linus Torvalds”,发现还真有结果,而且返回的是让人哭笑不得的内容:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

搜索结果是一个来自 data.world 的数据集,“Linus Torvalds Rants”是“Linus Torvalds 发飙”的意思,嗯,这很 Linus。

兴奋地点进去(嗯?为什么我要兴奋),果然发现了宝藏:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

原来这个数据集收集了 Linus 从 2012 年到 2015 年间在邮件列表上发过的飙。这里顺便提一下今年 6 月份 Linus 也发了一次大飙:有时候标准就是一坨屎

按照指示,把该“Linus 发飙合集”在工作区打开后是下边这样的,大概感受一下:

用谷歌新发布的 Dataset Search 搜 Linus,结果……

试了一下,数据集中的条目确实可以访问到原始邮件,佩服 Linus 的高产,也为 Dataset Search 点赞,真的太方便了。如果哪天想以 Linus 的发怒为基线来写一个 Linux 内核的发展历程,那这样的搜索神器就帮大忙了。

Google 在国内素有“谷人希”(谷歌,人类的希望)的美誉,此次发布的 Dataset Search 又造福了人类。

再 PK 一次,百度你还能赢吗?


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Algorithms + Data Structures = Programs

Algorithms + Data Structures = Programs

Niklaus Wirth / Prentice Hall / 1975-11-11 / GBP 84.95

It might seem completely dated with all its examples written in the now outmoded Pascal programming language (well, unless you are one of those Delphi zealot trying to resist to the Java/.NET dominanc......一起来看看 《Algorithms + Data Structures = Programs》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具