内容简介:下面开始今天的学习~
点击上方 蓝字 关注我们
下面开始今天的学习~
在强人工智能出现之前,现有的应用人工智能的训练对数据具有强依赖性。样本量的大小,正负样本的比例等样本特征甚至能够直接决定所训练的机器学习模型的好坏。在高效的智能服务下,是庞大到不可思议的数据训练库堆砌起的坚实基石,以及隐身于智能背后数量庞大、层次不齐的“人工”。这些人站在时代风口、却做着民工般枯燥的机械工作;他们让每条数据与我们亲密接触、却又让我们无法触及他们的存在。
目前在中国,数据标注已然是一条十分成熟的产业链,下面是一条数据标注专员招聘的公告:
在 2017 年到 2018 年间,有很多大数据标注公司得到了千万轮的融资。
-
2018 年 5 月,周同科技完成 2000 万人民币A轮融资;
-
2018 年 3 月,爱数智慧获得A轮融资;
-
2018 年 1 月,星尘数据获得 1000 万人民币 Pre-A 轮融资
-
2017 年 11 月,龙猫数据获得 A 轮 3370 万人民币融资;
-
2017 年 7 月,BasicFinder 完成 1000 万人民币 Pre-A 轮融资; 这些公司的服务企业有百度、小米、京东、今日头条这样的互联网公司,也有出门问问、云从、深鉴等 AI 公司。 另外,像京东、百度、腾讯、阿里其实都有自己的标注平台和工具。
数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。目前的数据标注工作主要是集中在河北、河南、山东、山西等劳动力密集的地区,这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。
很多数据标注的报道中,出现频率最高的都是那些毕业于职业技术学校的学生,他们在三四线城市,只需要会操作电脑,就能做数据标注的工作。然而枯燥而又乏味的重复性工作,导致数据标注人员的流动性非常之大,此前,在澎湃新闻的一篇视频采访中,某数据标注公司创始人表示他们有 500 名左右的在职人员,但是全职的只有 11、12 个。
不过,快速的人口流动也依然阻挡不了低门槛数据标注生意的红火。
有多少智能,就有多少人工
即使现在有一些数据服务平台开发了 AI 工具来辅助人工标注,但依然需要数据标注员去检查和修正其中的错误。在一些专业数据标注公司,机器占 30%,而人工标注占比达到 70% 左右。
这就像一个悖论,AI 能否进化的更为智能某种程度上取决于这些标注工作的人,而这个工作却是最不智能、最没有技术含量的。
这种看似无意义的低效率工作应该由 AI 去做才符合我们对技术的认知,因为我们发展人工智能的初衷,就是为了解放生产力、提高生产效率。最需要 AI 去做的事情, AI 反而无能无力,而我们为了能让 AI 取代劳动密集型的工作,得先为 AI 服务,付出密集、辛勤的劳动,这让数据标注工作看上去有点反乌托邦的“魔幻”感觉。
在某个纪实采访中,管理标注员的负责人用特斯拉(Tesla)的自动驾驶事故鼓励员工,2016 年,一辆自动驾驶模式下的特斯拉发生车祸事故。事后特斯拉公司发表声明称:白色卡车在蓝天背景下识别不出来,特斯拉因此没有启动刹车。”你们打磨的每一个数据都会为人工智能做出巨大贡献,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为你当年把它标出来了。”
还有一个让人感觉到可怕的事实:清华大学人工智能学院院长张钹院士就提到纯数据驱动的系统也存在很大问题——鲁棒性很差,易受到很大的干扰。即便训练出的系统模型准确率高达 99%,但在实际应用中,仍然会犯很多“弱智”的错误。
一位数据标注资深从业者所说, “以自动驾驶领域的数据标注为例,我用 A 公司的数据模型放到 B 公司的设备上跑不通,甚至摄像头换了一个角度、位置或分辨率,都跑不通。”
现有的弱人工智能好像有些太弱了,需要能够全方位的提供所有可能场景,人工智能才能展现出自己智能的一面。
“ 有多少智能,就有多少人工 。”这似乎是AI进化必须经历的过程。
Facebook 人工智能研究部门负责人 Yann LeCun 曾经说过,AI 的核心在于预测,AI 的下一个变革是无监督学习、常识学习。研究人员正努力让 AI 不依赖人类训练,自己去观察世界是如何运转的,并学会预测。当然,目前无需标注数据的无监督学习已经从实验室走向应用,而类似的迁移学习算法也能减少一定的数据标注工作量。但好像不能从质上发现改变。
人脑是一个复杂的生物计算机,人脑中的神经元高达八百亿之多,而这些神经元之间也相互联系组成了一些高度复杂的网络系统。每个神经元、单元组具有灵敏的自动化模式,受到各种已知和未知的生物因素的调控,大多数神经元都会发挥他们的作用,并且这些网络具有的“自动清除机制”和“自动生成机制”让他们赋予了更多可变化的属性。而人类仅仅需要一日三餐的能力,即可让大量的神经元正常运转。这些生物进化赋予之的黑科技就像原子弹一样毁灭着我们现在尚且稚嫩的创造力。
以现有的条件,如果硬是要用目前的计算机技术来“暴力破解”人工智能,即便是 30% 小部分的功能的实现消耗的计算量起码要用到全世界的计算机的计算能力,以及数量很大的独特算法来模拟实现。
强人工智能的路还有很远,而这些人工智能的老师们,依然在河北或者河南这些劳动力密集的地方的某个乡村里,盯着 25 英寸 1080P 的屏幕,指关节不停的敲动。
本文作者:宋娜
编辑&版式:霍霍
声明:本文归 “力扣” 版权所有,如需转载请联系。
文中部分图片来源于网络,为非商业用途使用,如有侵权联系删除。
推荐阅读
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 人工智能发展需要真正的开源开放,OpenI启智平台肩负使命正式启航
- 人工智能会取代人工翻译吗?
- 你负责人工智能哪部分?人工那部分;知识图谱的构建主要靠人工还是机器?
- 腾讯发布人工智能辅助翻译 致敬人工翻译
- 忽略这一点,人工智能变人工智障的!
- 人工生命 1.0.0 版发布,第一个人工生命诞生
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
神经网络在应用科学和工程中的应用
萨马拉辛荷 / 2010-1 / 88.00元
《神经网络在应用科学与工程中的应用:从基本原理到复杂的模式识别》为读者提供了神经网络方面简单但却系统的介绍。 《神经网络在应用科学和工程中的应用从基本原理到复杂的模式识别》以神经网络在科学数据分析中所扮演角色的介绍性讨论作为开始,给出了神经网络的基本概念。《神经网络在应用科学和工程中的应用从基本原理到复杂的模式识别》首先对用于实际数据分析的神经网络结构进行了综合概述,继而对线性网络进行了大量......一起来看看 《神经网络在应用科学和工程中的应用》 这本书的介绍吧!