- 授权协议: Apache
- 开发语言: Scala
- 操作系统: Linux
- 软件首页: http://huawei-noah.github.io/streamDM/
- 软件文档: http://huawei-noah.github.io/streamDM/docs/Programming.html
- 官方下载: https://github.com/huawei-noah/streamDM/archive/master.zip
软件介绍
streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。
大数据流学习
大数据流学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在流动的过程中不太可能保持同一种分布。而且,数据流中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。
Spark Streaming
Spark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据流处理成为可能。Spark 是一个可扩展可编程的框架,用于大规模分布式数据集(也称为弹性分布式数据集(RDD))处理。Spark Streaming 接收输入的数据流后将数据分批,再由 Spark 引擎处理,生成结果。
Spark Streaming 数据被编成一个 DStreams 序列,内在地表示成一个 RDD 序列。
包含以下方法:
在第一次开放的 StreamDM 中,我们部署了:
我们部署了以下数据生成器:
HyperplaneGenerator
RandomTreeGenerator
RandomRBFGenerator
RandomRBFEventsGenerator
我们部署了 SampleDataWriter:
它可以调取数据生成器创建样本数据用于模拟和测试。后面我们将计划开放:
分类:随机森林
回归:Hoeffding 回归树,Bagging,随机森林
聚类:Clustree, DenStream
Frequent Itemset Miner:IncMine, IncSecMine
下一步
为了快速介绍一下 StreamDM 的运行,请打开 Getting Started 文件。StreamDM Programming Guide 展示了 StreamDM 的细节。完整的 API 文档,可以参考这里:http://huawei-noah.github.io/streamDM/api/index.html。
部分内容转载自机器之心
C++数值算法(第二版)
William T.Vetterling、Brian P.Flannery、Saul A.Teukolsky / 胡健伟、赵志勇、薛运华 / 电子工业出版社 / 2005年01月 / 68.00
本书选材内容丰富,除了通常数值方法课程的内容外,还包含当代科学计算大量用到的专题,如求特殊函数值、随机数、排序、最优化、快速傅里叶变换、谱分析、小波变换、统计描述和数据建模、常微分方程和偏微分方程数值解、若干编码算法和任意精度的计算等。 本书科学性和实用性统一。每个专题中,不仅对每种算法给出了数学分析和比较,而且根据作者的经验对算法做出了评论和建议,并在此基础上给出了用C++语言编写的实用程......一起来看看 《C++数值算法(第二版)》 这本书的介绍吧!
JS 压缩/解压工具
在线压缩/解压 JS 代码
RGB转16进制工具
RGB HEX 互转工具
