开源机器学习项目 Oryx

码农软件 · 软件分类 · 机器学习/深度学习 · 2019-08-07 11:44:52

软件介绍

Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎。随着数据的不断流入,Oryx还将支持自我更新。

无论从建模还是部署,Oryx都可以随需扩展,Owen认为这是Oryx与Hadoop的传统“甜蜜点”——探索性分析和运营性分析最大的不同。

Owen认为传统的在Hadoop上部署机器学习的技术——Apache Mahout已经走到尽头。

“Mahout受制于第一代MapReduce只能处理批任务的局限,用户需要做大量的工作才能搭建并让机器学习系统运转起来,而Myrrix重写 了Mahout,解决了所有老问题。如果Mahout还有药可救,Cloudera就不会收购Myrrix。Oryx差不多有90%的代码都来自 Myrrix,也有一些代码来自Cloudera”Owen说道。

人人都能使用的开源推荐引擎?

Oryx的定位不是机器学习算法的程序库,Owen关注的重点有四个:回归、分类、集群和协作式过滤(也就是推荐)。其中推荐系统非常热门,Owen正在与几个Cloudera的客户合作,帮他们使用Oryx部署推荐系统。

将Oryx打造成开发推荐系统的标准化工具的做法将使这个项目赢得极大关注,因为推荐系统几乎已经成了主流网站的标配,无论是电商还是内容网站都需要推荐系统提高网站的用户体验和转化率。但是推荐引擎技术目前面临的最大问题就是缺乏标准和开源工具。

致力于推荐技术标准化的公司不仅是Oryx一家,另外一家云计算创业公司Mortar Data也在积极推动用户推荐引擎技术的开发,并展现其开源推荐框架的优点。其他一些公司注入Expect Labs虽然没有开源,但试图通过人工智能API接口实现推荐系统的自动化。

目前还不是一个产品

Owen认为Cloudera的所有客户(以及绝大多数的Hadoop用户)最终都想要部署运营型机器分析系统——不仅仅是推荐,Oryx将来有可能成为实现工具,但目前Oryx还只是一个实验性项目。

目前Owen还在花费大量时间担当Apache Spark目的贡献者,他想重写Oryx,将Spark而不是MapReduce作为主要的处理框架,因为Spark已经成为下一代大数据应用的热门技术。由于性能 和速度优于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处 理、迭代计算的大数据应用的要求,包括基于Oryx开发的实时机器学习系统。

介绍内容来自IT经理网

本文地址:https://codercto.com/soft/d/11835.html

算法神探

算法神探

[美] 杰瑞米·库比卡 / 啊哈磊、李嘉浩 / 电子工业出版社 / 2017-2 / 65

《算法神探:一部谷歌首席工程师写的CS小说》围绕程序设计典型算法,精心编织了一个扣人心弦又趣味横生的侦探缉凶故事。小说主人公运用高超的搜索技巧和精深的算法知识,最终识破阴谋、缉拿元凶。其间,用二分搜索搜查走私船、用搜索树跟踪间谍、用深度优先搜索逃离监狱、用优先队列开锁及用最佳优先搜索追寻线索等跌宕起伏又富含算法精要的情节,让读者在愉悦的沉浸式体验中快速提升境界,加深对程序世界的理解。《算法神探:一......一起来看看 《算法神探》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具