从技术上解读大数据的应用现状和开源未来

栏目: 软件资讯 · 发布时间: 5年前

内容简介:论文导读: 这篇综述论文解读了 2006 大数据系统兴起以来代表性应用和开源基准测试集。近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进。然而,迄今为止,还没有就这些基准测试集进行系统调研。因此,本文对当前最前沿的开源大数据基准测试集进行全面总结,阐述其历史、现状并展望下一步研究方向。首先,我们从大数据系统的角度对大数据基准测试集进行了定义和分类。随后,我们回顾了基准测试技术的三个重要方面——工作负载生成技术、输入数据生成技术和系统评估指标。最后

论文导读: 这篇综述论文解读了 2006 大数据系统兴起以来代表性应用和开源基准测试集。近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进。然而,迄今为止,还没有就这些基准测试集进行系统调研。因此,本文对当前最前沿的开源大数据基准测试集进行全面总结,阐述其历史、现状并展望下一步研究方向。首先,我们从大数据系统的角度对大数据基准测试集进行了定义和分类。随后,我们回顾了基准测试技术的三个重要方面——工作负载生成技术、输入数据生成技术和系统评估指标。最后,论文从这三个方面对现有基准测试集进行归类,并重点描述其中具有代表性的测试集,进而讨论未来研究方向,以推动该领域工作的持续发展。

大数据开源基准测试集

1. 大数据系统及开源基准测试简介

大数据系统通常被分为三个阵营,如图 1 所示:

(1)Hadoop 相关系统;

(2)数据库管理系统 (DBMSs) 和 NoSQL 数据库;

(3)针对图数据、流数据和复杂科学数据的特殊处理需要的专用系统。

从技术上解读大数据的应用现状和开源未来

图 1. 大数据系统分类与总述

总结归纳了当前流行的开源基准测试集,图 2 显示了这些基准测试集的词云图,其中词的大小和流行度成比例。

从技术上解读大数据的应用现状和开源未来

图 2. 开源大数据基准的词云云

2. 大数据基准测试分类及发展历史

大数据基准测试集的类别:

(1)微基准测试集。这类基准测试集被用于评估单个系统组件或特定系统行为(或代码的功能);

(2)端到端基准测试集。这类基准测试集的目的是使用典型应用场景评估整个系统,每个场景都对应一个工作负载的集合。

(3)基准测试集套件是不同的微基准测试集或端到端基准测试集的组合,这些套件的目标是提供全面的基准测试解决方案。

发展历史:大数据基准测试是一个活跃的研究领域,许多基准测试集在最初发布之后仍在发展,图 3 显示了它们的初始发布年份。

从技术上解读大数据的应用现状和开源未来

图 3. 大数据基准测试集发布时间轴

3. 工作负载生成技术

工作负载实现技术:我们将大数据工作负载划分为三类:

(1)I / O 操作。这些操作在输入数据或文件上执行 (例如,读、写、移动数据或新建、删除文件)。

(2)算法操作。当作为一种算法实现时,一个工作负载由一个或多个对输入数据的独立操作组成。

(3)基本操作 (EO)。这些操作要么是标准的 SQL 操作符 [102],要么是具有类似语法的操作符(如 Pig Latin)。图 4 显示了代表性负载和操作的词云图。

从技术上解读大数据的应用现状和开源未来

图 4. 代表性大数据工作负载的词云图

工作负载提交技术:我们将本文回顾的基准测试集的提交策略分成三类:

(1)预先指定。在许多基准测试集中,工作负载的输入数据、提交速率和顺序都是在执行前指定的。

(2)参数控制。这类基准测试集允许用户使用参数控制工作负载的执行。

(3)真实日志驱动。通过使用这种提交策略,基准测试集可以根据真实世界的日志来真实地复现工作负载。

开放性挑战:已有的大数据基准并不能完全符合以上三个准则:(1)相关性。鉴别被测系统的典型行为是实现高度相关性负载的先决条件。(2)可移植性。我们首先从软件系统(即软件栈)的角度讨论这个准则。(3)伸缩性。为了评估不同规模的系统,基准测试集应该能够调整工作负载的规模,同时保证其提交和混合的真实性。

4. 输入数据生成技术

大数据基准测试中的数据生成器:

(1)现有数据集:许多大基准测试提供固定大小的数据集作为其工作负载的输入;

(2)基于合成分布的数据生成器;

(3)基于真实数据的数据生成器;

(4)混合数据生成器。

开放性挑战:考虑大数据的数据量和速度,以及不同的数据类型和来源(数据种类),此处有两个具有挑战性的关键问题:第一个问题是现有的基准测试集可以构建模型来提取某些数据类型(如表格,文本和图数据)的真实数据集的特征,但是很少关注其他数据类型,如流、图、视频和科学数据。第二个同时也是更具挑战性的问题是如何评估产生的合成数据的真实性水平。

5. 评估中的指标和性能参数

评估中的指标和性能参数:

(1)通用性能指标包括响应时间、吞吐量、可靠性、可用性;

(2)体系结构指标包括执行周期划分、处理器计算强度;

(3)价格和能耗指标包括性价比指标、能耗指标。

大数据系统性能参数:

(1)系统配置参数。大数据系统中大量软件栈和多种编程语言的使用会带来大量的配置参数。

(2)资源分配参数。当数据中心中部署大数据系统时,计算和网络资源由不同系统的工作负载共享。

论文原文:2018 年发表于服务计算领域顶级期刊 TSC: ( http://ieeexplore.ieee.org/document/7990174/),图 5 显示了英文原文导读图。

中文技术报告: https://mp.weixin.qq.com/s/qW2UPheanJcda_lfuTXyMw

从技术上解读大数据的应用现状和开源未来

图 5. TSC 英文原文导读图


以上所述就是小编给大家介绍的《从技术上解读大数据的应用现状和开源未来》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Flask Web开发:基于Python的Web应用开发实战

Flask Web开发:基于Python的Web应用开发实战

[美] Miguel Grinberg / 安道 / 人民邮电出版社 / 2014-12 / 59.00元

本书不仅适合初级Web开发人员学习阅读,更是Python程序员用来学习高级Web开发技术的优秀参考书。 • 学习Flask应用的基本结构,编写示例应用; • 使用必备的组件,包括模板、数据库、Web表单和电子邮件支持; • 使用包和模块构建可伸缩的大型应用; • 实现用户认证、角色和个人资料; • 在博客网站中重用模板、分页显示列表以及使用富文本; • 使用基于......一起来看看 《Flask Web开发:基于Python的Web应用开发实战》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

MD5 加密
MD5 加密

MD5 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器