以智能数据架构,挖掘增长金矿

栏目: 数据库 · 发布时间: 5年前

内容简介:对很多技术团队来说,在搭建智能数据架构的过程中,或多或少会遇到一些疑惑和挑战,经过多次实践后,有些团队已经破除疑惑,成功探索出一条搭建智能数据架构之路,那么他们是如何实现这一技术的呢?在近日的个推技术沙龙成都站,几位架构大师在现场开启了数据技术的“脑暴时间”。企业在应对数据增长带来的巨大挑战时,需在研发和管理方面做好充足准备。研发方面,提升数据存储的扩展性;管理方面,除了增加对人和设备的管理外,要努力打造一支具有数据驱动型领导力的团队,让团队中的决策以数据为依据,同时创造出以数据为核心的文化氛围。

对很多技术团队来说,在搭建智能数据架构的过程中,或多或少会遇到一些疑惑和挑战,经过多次实践后,有些团队已经破除疑惑,成功探索出一条搭建智能数据架构之路,那么他们是如何实现这一技术的呢?在近日的个推技术沙龙成都站,几位架构大师在现场开启了数据技术的“脑暴时间”。

诺基亚网络成都研发中心研发经理

刘朋 《数据增长时代的研发管理》

企业在应对数据增长带来的巨大挑战时,需在研发和管理方面做好充足准备。

研发方面,提升数据存储的扩展性;管理方面,除了增加对人和设备的管理外,要努力打造一支具有数据驱动型领导力的团队,让团队中的决策以数据为依据,同时创造出以数据为核心的文化氛围。

大数据时代,想要成为一名数据驱动型领导(Data-Driver Leader),需要具备三大招式。

第一招:关注研发团队的经济效益数据(Take an Economic View)

研发团队不仅是成本中心,他们也具有创造经济效益的能力,作为一名数据驱动型领导,在日常工作中要关注相关技术实践能否为公司带来经济利益。

第二招:让团队数据可视化(Transparency)

在一支研发团队中,部门领导需要将数据可视化,让团队中的每个人都对核心数据有所了解,这样一来,当问题出现时,每个人都有能力去解决。

第三招:基于数据,及时快速反馈(Fast Feedback)

在团队运行过程中,作为领导者,不仅要制定好相应规划,同时要不断分析数据查找问题,并基于数据以及KPI给成员提供反馈。

虽然数据驱动型领导在推动公司决策方面具有重要作用,但随着公司人员的扩充,部门墙和局部优化(Sub-optimization)越来越明显,此时需要打破部门墙,让各个部门和团队都能围绕一个共同的目标进行协作,以达到效益最大化的目标。

个推大数据架构师

袁凯 《机器学习平台建设与实践》

机器学习工作的常规流程:运营者首先要将商业问题转化为机器学习能够解决的问题,然后再进行数据收集以及清洗和聚合的工作,接下来开启数据探索和特征工程,经过上述步骤,便能得到事物预测所需要的全部因素,此时,运营者可以选用不同的算法,并将算法进行训练,得到相应的应用模型。最后,运营者还需要利用真实的数据进行验证,确保模型的可行性。

机器学习作为一门多领域交叉学科,是解决许多实际问题的有效工具。个推通过机器学习,构建了独有的冷、热、温标签,用以分析不同群体的基础属性和行为特征,描绘用户的精准画像,最终运用于智能推送和精准营销。

想要完成机器学习平台的建设,需要注意三大要点:

1.只有端到端的平台建设才会真正产生价值,同时,特征工程的数据和代码沉淀需要共享运营。

2.从成效出发,聚焦痛点,不要盲目跟随行业,做好系统和培训的一体化。

3.谨慎引入新技术栈。

为了避免机器学习平台建设中出现的常见问题,个推的建模平台会提供相应的IDE以及呈现相应特征的管理系统,同时还能提供标准化的ID匹配服务和数据抽取服务,减少工程师的重复工作。此外,个推提供的打包部署服务和后续监控服务,也能够帮助企业保证平台的顺利运行。

聚美优品大数据高级工程师

贺鹏《大数据3.0流计算与智能决策》

大数据3.0时期,Hadoop第一代、Spark内存计算第二代,早期流计算以及人工智能流计算同时并存。

早期流计算具有强一致性、数据乱序与延迟等五大困难点,Flink的出现,有效解决了这些难题,同时Flink还兼具了可以实时增量计算、 SQL 支持以及CEP支持等六大优点。

流计算发展至今,已经具备了CEP这一强大功能,这也是支撑流计算智能化的关键因素所在。现实生活中,很多复杂的场景无法通过显式规则来进行判断(传统编程为规则编程、指令编程以及if else编程),比如你无法用if else写出如何判断哪一张图片是树叶,你无法用有限的规则写出如何判断数据流中哪些是人为操作、哪些是机器人刷单,此时需要用机器学习模型来检测和匹配,同时需要ML和流计算相结合使用。

通常情况下, ML模型主流场景有分类和回归两大场景,他们可以检查抽象中无状态 f = fx(x1,x2 ..)无状态模型(有状态的模型典型代表rnn),而在SQL语义中 UDF刚好与之对应(无状态),需要把模型放入流处理系统中,也就是将tensorflow PB model模型注册为udf,完成上述步骤后,数据流会进入ML检测阶段。

使用流计算相关功能时,需要强大的平台予以支持,以便在上面实施SQL开发、授权等操作。


以上所述就是小编给大家介绍的《以智能数据架构,挖掘增长金矿》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

More Eric Meyer on CSS (Voices That Matter)

More Eric Meyer on CSS (Voices That Matter)

Eric A. Meyer / New Riders Press / 2004-04-08 / USD 45.00

Ready to commit to using more CSS on your sites? If you are a hands-on learner who has been toying with CSS and want to experiment with real-world projects that will enable you to see how CSS......一起来看看 《More Eric Meyer on CSS (Voices That Matter)》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具