用于 Spark Streaming 的数据挖掘 streamDM

码农软件 · 软件分类 · 大数据 · 2020-02-13 15:13:32

软件介绍

streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。

大数据流学习

大数据流学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在流动的过程中不太可能保持同一种分布。而且,数据流中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。

Spark Streaming

Spark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据流处理成为可能。Spark 是一个可扩展可编程的框架,用于大规模分布式数据集(也称为弹性分布式数据集(RDD))处理。Spark Streaming 接收输入的数据流后将数据分批,再由 Spark 引擎处理,生成结果。

Spark Streaming 数据被编成一个 DStreams 序列,内在地表示成一个 RDD 序列。

包含以下方法:

在第一次开放的 StreamDM 中,我们部署了:

我们部署了以下数据生成器

  • HyperplaneGenerator

  • RandomTreeGenerator

  • RandomRBFGenerator

  • RandomRBFEventsGenerator

我们部署了 SampleDataWriter

它可以调取数据生成器创建样本数据用于模拟和测试。后面我们将计划开放:

  • 分类:随机森林

  • 回归:Hoeffding 回归树,Bagging,随机森林

  • 聚类:Clustree, DenStream

  • Frequent Itemset Miner:IncMine, IncSecMine

下一步

为了快速介绍一下 StreamDM 的运行,请打开 Getting Started 文件StreamDM Programming Guide 展示了 StreamDM 的细节。完整的 API 文档,可以参考这里:http://huawei-noah.github.io/streamDM/api/index.html

部分内容转载自机器之心

本文地址:https://codercto.com/soft/d/25529.html

B2B品牌管理

B2B品牌管理

(美)菲利普·科特勒、(德)弗沃德 / 楼尊 / 2008-1 / 35.00元

《B2B品牌管理》是第一本专门系统地阐述B2B品牌化的专业书籍,由营销大师菲利普•科特勒与弗沃德教授合作而成。他们以非凡的智慧和深厚的经验告诫B2B企业如何运用目标明确、重点突出的品牌化战略取得市场竞争优势地位,从而更加接近顾客,也更接近成功。在众多关于品牌的书籍中,《B2B品牌管理》的独特价值在于其根据实际环境探讨B2B品牌和品牌化问题,重点介绍和分析前沿的思想和最佳实践;通过与B2C企业的品牌......一起来看看 《B2B品牌管理》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具