hadoop – 大数据和数据挖掘有什么区别?

栏目: 编程工具 · 发布时间: 6年前

内容简介:http://stackoverflow.com/questions/22419958/what-is-the-difference-between-big-data-and-data-mining

如Wikpedia所言

The overall goal of the data mining process is to extract information  from a data set and transform it into an understandable structure for  further use

这与大数据有什么关系?如果我说Hadoop正在以并行方式进行数据挖掘,是正确的吗?

大数据是一切

大数据是营销术语,而不是技术术语.一切都是大数据这些天.我的U盘现在是一个“个人云”,而我的硬盘是大数据.认真.这是一个完全不具体的术语,主要是由各种非常乐观的公司的营销部门以及主要公司的C * Os所购买的,以使魔术发生.

数据挖掘是旧的大数据

实际上,数据挖掘就像过度使用一样,这可能意味着任何事情

收集数据(认为NSA)

>存储数据

机器学习/ AI(早于数据挖掘术语)

>非ML数据挖掘(如“知识发现”中,数据挖掘术语实际上是创造的;但重点在于新知识,而不是学习现有知识)

>业务规则和分析

>可视化

>任何涉及数据的东西,你想出售卡车的钱

只是营销需要一个新的术语. “商业智能”,“商业分析”,…他们仍然继续销售相同的东西,现在只是重新命名为“大数据”.

大多数“大”数据挖掘并不大

由于大多数方法 – 至少那些给出有趣结果的方法 – 只是不缩放,大多数数据“开采”实际上并不大.这显然比10年前大得多,但不如Exabytes大. KDnugget的调查显示,有1-10 GB是平均“分析的最大数据集”.任何数据管理手段都不是很大的数据;使用复杂的方法可以分析什么呢? (我不是在说平凡的算法,如k-means).

大多数“大数据”不是数据挖掘

现在“大数据”是真实的. Google拥有大数据,而CERN也拥有大量数据.大多数人可能不会.数据开始很大,当你需要1000台电脑来存储它.

大数据技术,如Hadoop也是真实的.它们并不总是被明智地使用(不要麻烦地运行不到100个节点的hadoop集群),因为这可能可以从精选的非集群机器获得更好的性能),但是当然人们写这样的软件.

但是大部分正在做的不是数据挖掘.这是 Extract, Transform, Load (ETL) ,所以它正在取代数据仓库.而不是使用具有结构,索引和加速查询的数据库,数据只是被转储到hadoop中,当你想出了要做什么,你重新读取所有的数据,并提取你真正需要的信息,转换它和将其加载到excel电子表格中.因为选择,提取和转化后,通常不是“大”了.

数据质量受到影响

大数据的许多营销承诺将不成立.对于绝大多数公司而言,Twitter对于广告来说无非常少见(除非您是青少年的摇滚明星) Twitter用户群受到很大的偏见.纠正这种偏见是困难的,需要经验丰富的统计人员.

数据偏差是一个问题 – 如果您只是从互联网或应用程序中收集一些随机数据,通常不具有代表性;特别是不是潜在的用户.相反,如果您不设法取消这些效果,您将会对现有的重型用户过度使用.

另一个大问题就是噪音.您有垃圾邮件机器人,还有其他工具(认为Twitter的“趋势主题”导致“趋势”的加强),使数据比其他来源更加重要.清理这些数据很难,而不是技术问题,而是统计领域的专业知识.例如,Google流感趋势被重复发现是相当不准确的.它在一些较早的年份(可能是因为过度配合)而工作,但不再是质量好的.

不幸的是,很多大数据用户对此并不太关注;这可能是大多数大型数据项目似乎失败的原因之一(其他是无法管理,膨胀和不切实际的期望,缺乏公司文化和技术人员).

Hadoop!=数据挖掘

现在你的问题的第二部分. Hadoop不做数据挖掘. Hadoop管理数据存储(通过HDFS,一种非常原始的分布式数据库),并且可以计划计算任务,从而可以在存储数据的相同机器上运行计算.它没有做任何复杂的分析.

有一些 工具 试图将数据挖掘带到Hadoop.特别是,Apache Mahout可以称之为官方Apache尝试在Hadoop上进行数据挖掘.除了它主要是机器学习工具(机器学习!=数据挖掘;数据挖掘有时使用机器学习的方法). Mahout的一些部分(如聚类)远未达到先进水平.问题是Hadoop对线性问题很有好处,但大多数数据挖掘并不是线性的.而非线性算法不仅仅是扩展到大数据;您需要仔细地开发线性时间近似,并以精确的损失来实现 – 损失必须小于通过简单处理较小数据而损失的损失.

这个权衡问题的一个很好的例子是k-means. K-means实际上是(大多数)线性问题;所以它可以在Hadoop上有些运行.单个迭代是线性的,如果你有一个很好的实现,它将扩展到大数据.然而,直到收敛的迭代次数随着数据集大小而增长,因此它不是真正的线性.然而,由于这是一种查找“手段”的统计方法,所以结果实际上并不会随数据集大小而改善.所以当你可以在大数据上运行k-means时,它并没有多大意义 – 你只需要对数据进行抽样,运行高效的单节点版本的k-means,结果将会一样好因为额外的数据只是给你一些额外的数字的精度的值,你不需要那么精确.

由于这适用于相当多的问题,Hadoop上的实际数据挖掘似乎没有开始.每个人都试图做到这一点,很多公司都卖这个东西.但它并不比非大版本好多了.但只要客户想买这个,公司就会卖这个功能.只要它获得了一笔资金,研究人员就会在此写论文.无论它是否工作.这就是生命.

这些事情有几种情况可行. Google搜索就是一个例子,而Cern.而且图像识别(但不是使用Hadoop,GPU的集群似乎是去那里的方式)最近受益于数据量的增加.但是在任何这些情况下,您都有相当干净的数据. Google索引所有内容Cern放弃任何非有趣的数据,只分析有趣的测量 – 没有垃圾邮件发送者将其垃圾邮件提供给Cern …并且在图像分析中,您可以对预先选定的相关图像进行训练,而不是在网络摄像机或互联网上的随机图像(以及如果是,您将它们视为随机图像,而不是代表性的数据).

http://stackoverflow.com/questions/22419958/what-is-the-difference-between-big-data-and-data-mining


以上所述就是小编给大家介绍的《hadoop – 大数据和数据挖掘有什么区别?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

结网

结网

王坚 / 人民邮电出版社 / 2010-4 / 55.00元

本书作者一直从事互联网产品的研究和实战,经验丰富,同时作为导师,指导了大量优秀的产品经理,本书的内容也是作者8年来培养产品经理新兵的经验集萃。如果你缺乏培养产品经理的教材,本书正好总结了产品经理知识体系,无疑是你很好的选择。 本书覆盖了相当全面的互联网知识,对于想要了解互联网行业或想要借助互联网进行营销的人来说,都是很好的入门读物。 本书并不是一本完善的互联网创业指南,而是写给胸怀互联......一起来看看 《结网》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具