Google BigQuery 中的机器学习

栏目: 数据库 · 发布时间: 6年前

内容简介:文 / 纽约市 Google AI 研究员 Umar Syed 和 Sergei Vassilvitskii来源 | 谷歌开发者 Google_DevelopersGoogle BigQuery 支持大型数据集的交互式分析,可协助企业轻松分享有意义的数据分析,并基于客户分析开发相应解决方案。不过,许多企业虽采用 BigQuery,却未借助机器学习来更有效地理解企业产生的各项数据。原因在于,精通 SQL 的数据分析师可能不具备应用机器学习技术所需的传统数据科学背景。

文 / 纽约市 Google AI 研究员 Umar Syed 和 Sergei Vassilvitskii

来源 | 谷歌开发者 Google_Developers

Google BigQuery 支持大型数据集的交互式分析,可协助企业轻松分享有意义的数据分析,并基于客户分析开发相应解决方案。不过,许多企业虽采用 BigQuery,却未借助机器学习来更有效地理解企业产生的各项数据。原因在于,精通 SQL 的数据分析师可能不具备应用机器学习技术所需的传统数据科学背景。

今天,我们宣布推出 BigQuery ML,这是 BigQuery 内含的一项功能,可让数据科学家和分析师根据大规模结构化或半结构化数据集构建并部署机器学习模型。BigQuery ML 是一组简单的 SQL 语言扩展程序,支持用户利用热门的 ML 功能,执行预测性分析(例如预测销售额)以及在已有数据存储的源头处创建客户细分。此外,BigQuery ML 还会自动设置智能默认选项及执行数据转换,以出色结果提供无缝顺畅的使用体验。

Google BigQuery 中的机器学习

在设计 BigQuery ML 后端时,开发团队曾面临窘境。在将大量数据从 BigQuery 服务器传输至运行机器学习算法的专用服务器时,整个过程不仅耗时,而且会因安全和隐私方面的问题产生间接费用。然而,由于梯度下降法(机器学习算法工作负载的优化方法)的核心组件可通过常见的 SQL 操作来实现*,因此我们得以将现有的 BigQuery SQL 处理引擎改作 BigQuery ML 之用。

BigQuery 引擎的设计宗旨在于有效扫描大型数据集,而非从中随机抽取小型样本,因此 BigQuery ML 是以标准(批量)梯度下降法为基础,而非随机梯度下降法。在当今的大规模机器学习系统中,随机梯度下降法虽更为常见,但批量梯度下降法却具有诸多实用优势。

例如,基于随机梯度下降法的数据库内机器学习系统可逐一处理示例,而在数据次优 排序 时的表现却不尽如人意。但是,BigQuery 通常在磁盘上分配数据,以便优化常规 SQL 查询的性能,而为支持随机机器学习算法对数据进行的连续再分配,却会带来高昂的计算成本。相比之下,批量梯度下降法不会受到磁盘数据排序和分区的干扰,因此可以完全规避该问题。此外,批量梯度下降法还可结合使用经典优化法中的线搜索方法,进而产生更稳定且需更少微调的学习算法。而线搜索与随机梯度下降法的结合则更为复杂。我们还实现了对正则化和预处理的支持。如需了解更多详情,请参阅我们的论文。

希望您能了解,BigQuery ML 可用于执行诸多预测分析任务。如需试用,请访问 BigQuery 控制台,并遵照用户指南中的相关指示。创建模型易如反掌: CREATE MODEL dataset.model_name OPTIONS(model_type=’linear_reg’, input_label_cols=[‘input_label’]) AS SELECT * FROM input_table; 注:BigQuery 控制台链接 console.cloud.google.com/bigquery?pl… 用户指南链接 cloud.google.com/bigquery/do…

今后,我们计划在实施梯度下降时与 BigQuery 基础架构进一步整合,以实现更显著的性能提升。我们还将继续探索其他机器学习算法,以便用户能够轻松高效地实施这些算法,并借助 BigQuery 的强大功能应对大型问题。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

构建高可用Linux服务器

构建高可用Linux服务器

余洪春 / 机械工业出版社华章公司 / 2011-11-1 / 79.00元

资深Linux/Unix系统管理专家兼架构师多年一线工作经验结晶,51CTO和ChinaUnix等知名社区联袂推荐。结合实际生产环境,从Linux虚拟化、集群、服务器故障诊断与排除、系统安全性等多角度阐述构建高可用Linux服务器的最佳实践。本书实践性非常强,包含大量企业级的应用案例及相应的解决方案,读者可以直接用这些方案解决在实际工作中遇到的问题。 全书一共10章。第1章以作者的项目实践为......一起来看看 《构建高可用Linux服务器》 这本书的介绍吧!

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具