cover_image

浅谈机器学习原理及机器学习平台

于倩 之家技术
2019年10月16日 08:01

图片

   总篇64篇 2019年 第38篇


当下很多互联网公司都开始搭建自己的机器学习平台,界面和操作模式可能略有不同,但宗旨基本上都是:减少重复开发,提升工作效率。随着机器学习、深度学习技术的越发成熟,模型训练的流程和架构也就越发固定。在这种趋势下,搭建机器学习平台,把模型训练的固定步骤通过界面操作,大大简化了开发过程,降低了机器学习的门槛。

与传统的脚本开发的模式相比,机器学习平台平台将模型训练中数据处理、特征工程、算法选择等重要环节以组件的形式封装,由用户自由选择并搭建工作流,操作更加简单快捷。对于同一个训练实验,也可以同时选择多个算法模块进行不同算法或参数的并行实验。组件化的工作模式也同时避免了建模中间环节的重复开发,提升工作效率。

机器学习平台的产生让更多人有接触到机器学习的可能,通过简单的操作和原理学习,就可以打造属于自己的机器学习模型,真正做到了“全民AI”。

在机器学习出现之前,普遍采用设定规则的方式解决问题,通过给可能会对结果有影响的不同因素人工设定一个权重值,再将他们进行加和或者其他一些复杂运算,获得想要的结果。

举一个实际场景的例子,没有机器学习的时候,判断一个用户是否对某个特定商品感兴趣,可以假定“这个用户对商品的兴趣度 = 浏览次数*1+分享次数*2+加购物车件数*3”,通过一个这样的规则,得到用户对商品的兴趣程度。这样的方式对于因子数量少或者明确可以确定正负相关性的问题,简单也容易操作。可是随着因子数量的增多,这种人工设定规则来解决问题的方式变得越来越复杂和难以解决。

机器学习的出现,可以很好的辅助人工解决这类复杂问题。机器学习本质上就是在学习“设定规则”的过程,训练样本相当于一系列标准答案,机器在标准答案中学习规律,最终设定出合适的规则。

在上面的实例里,“浏览次数”“分享次数”“加购物车件数”是数据的特征,“兴趣度”是需要预测的目标,机器学习发现的这个匹配的“规则”就称之为模型。一个完整的机器学习模型一般会经历数据收集、数据处理、特征工程、算法选择、训练预测这几个环节。前期的数据处理环节,需要把训练样本处理的尽可能纯净,减少异常值对于模型训练的影响。比如用户年龄这个特征出现200或者负数,都是不符合实际情况的,属于影响判断的异常值,需要被处理成合理的数字。除了数据,算法的选择也会对模型训练的结果产生影响,不同的算法有各自的优缺点,需要在反复尝试的过程中选择最合适解决当前问题的算法。

汽车之家机器学习平台,为设计者提供了丰富的数据分析、数据处理、算法等组件,只需要简单的拖拽和连接的方式即可完成机器学习模型的训练、评估、预测等环节。同时为已经有开发经验的设计者开放notebooks交互式编程环境,提高脚本开发效率。致力打造一个集传统机器学习和深度学习,从数据处理到部署上线的一站式服务平台。 

图片

平台提供了两种创建实验的方式,点击右上角的“新建空白试验”,或者寻找一个需要的模板选择“从模板创建”。

图片

填写好实验的基本信息,就可以进入画布,对实验环节进行相应的操作。

图片

进入实验面板后,点击上方的“组件tab”,选择需要的组件,拖拽至面板中,依次连接组件的输出和输入节点,使他们形成完整的模型训练流程。如果想要调整某一个节点的参数,只需要单击该节点,在右侧的字段设置中调整相关的参数,就可以得到多个不同参数的相同组件。一般一个模型训练的流程需要至少包括输入数据源、数据预处理、算法组件等。

图片


点击上方的“运行”按钮,稍等一些时间,就可以得到一个自己训练的算法模型了。通过反复的修改组件和参数调整,可以在0代码基础的情况下,实现一个简单的机器学习模型的设计和使用。

随着机器学习平台的出现和不断升级,机器学习模型训练的过程越来越自动化,这并不意味着行业对机器学习领域人才要求的降低,反而,可视化的操作流程可以让更多的中小型企业和个人也能在自己的产品上应用算法模型,赶上机器学习和大数据带来的信息红利。

图片


继续滑动看下一个
之家技术
向上滑动看下一个