和AI谈伦理、道德和谎言

栏目: 数据库 · 发布时间: 5年前

内容简介:「人工智能」这个词语太可怕了,它被认为能够做「任何电脑还无法做到的事情」,比如下象棋、模拟对话、识别图像等等。「人工智能」每实现一次突破,它的边界就随之移动一次。 它与人类定义自己的方式(那些让人类与其他物种不同的特质)太过相似。所以,人们有时会使用「机器学习」这个术语来替代它。从严格意义上说,机器学习是

和AI谈伦理、道德和谎言

374 个问题后,

AI 终于从三文鱼中分出了金枪鱼

「人工智能」这个词语太可怕了,它被认为能够做「任何电脑还无法做到的事情」,比如下象棋、模拟对话、识别图像等等。「人工智能」每实现一次突破,它的边界就随之移动一次。 它与人类定义自己的方式(那些让人类与其他物种不同的特质)太过相似。所以,人们有时会使用「机器学习」这个术语来替代它。

那么,人工智能或者机器学习到底是什么?

从严格意义上说,机器学习是 「预测统计学」 领域的一个组成部分:建立一个系统,让它能够获取过去发生的事情的信息,并利用这些信息建立模型,预测相关环境下未来可能发生的事情。它既可以像「当你把车轮转向左边,车子也往左转」那样简单,也可以像试图了解一个人的全部生活和品味那样复杂。

这张图可以让我们了解 AI 系统的运作:

和AI谈伦理、道德和谎言

▲  AI 系统运作方式示意。

这个系统的作用方式是,从感知世界的传感器(Sensors)中形成对特征(Features)的认知,建立模型(Model),来告诉人们世界是如何工作的,以及人们采取行动将会产生什么后果。

在部分 AI 系统中,「特征」只是 原始的认知, 例如摄像头所看到的颜色。它不会对「什么特征重要、什么特征不重要」有任何先入之见,但会让 AI 模型变得难以构建。能够处理如此大规模信息的计算系统,直到最近十年才出现。而在另一部分 AI 系统中,「特征」则是 模型设计者认为有用的那部分信息。

接下来,「模型」通常会向我们展示很多种可能结果,以及它对每种可能性的理解。 如果你想让 AI 做出决定,那就需要为它设定一些规则。 例如,告诉它去「挑选最有可能成功的人」,或者「挑选最不可能导致灾难性失败的人」。

举个例子来说,你可以想象一个非常简单的「模型」: 旧蒸汽机上的机械调节阀。 它遵照的规则是:如果传感器读取到的压力值超过某个设定值,调节阀就会打开一个阀门,否则就关闭阀门。 

这个规则非常简单,因为它只需要参考一个输入、做出一个决定。但如果需要依赖于成千上万、甚至数百万的信息去决定更复杂的事情的话,你就会发现,设定规则这件事很不简单。

比如,如何控制一辆汽车(这取决于视觉、听觉等等)?或者哪个网页可以提供关于树袋熊养殖问题的最佳答案(这取决于你是一时兴起,还是专业的脊椎动物爱好者,以及该网站是由充满激情的爱好者所创办,还是只想卖给你廉价的树袋熊壮阳药)?这些事都要依靠数百万、甚至数千万的信息来做出决定。

AI 模型是专为处理复杂信息而设计的。在任何 AI 模型里都有一系列的规则来综合所有特征,有成百上千个单独的「旋钮」来指导模型做出决策,告知它在不同情况下如何权衡每个特征的重要性。

例如,有一种叫做 「决策树」 的 AI 模型,它看起来像是一个关于 Yes/No 问题的巨树。如果它的任务是从三文鱼中分出金枪鱼,那么它提出的第一个问题可能是,「图像的左半部分比右半部分更暗吗?」而最后一个问题大概是,「根据之前的 374 个问题的答案,这个正方形中的平均颜色是橙色还是红色?」

和AI谈伦理、道德和谎言

▲ 决策树示意图。

「旋钮」决定了模型询问问题的顺序,以及每个问题的「是」和「否」之间的界限。 你不可能一口气找到一个能够可靠地分辨三文鱼和金枪鱼的正确问题组合, 这里有太多可能性了。所以,在开始时,AI 模型的运行是「训练模式」,通过一个又一个的例子调整「旋钮」, 在每次出现错误后自我纠正。 随着所看到的例子的增多,它从偶然性中找到关键所在的能力也就越强。

与人类相比,AI 的优势并非决策速度。AI 通常需要几毫秒来作出决定,人大概也需要这么长时间。 它真正的优势是,始终不会觉得无聊或分心。 它可以在不同的数据片段上连续做数百万或数十亿次决定。这意味着,它可以被应用于解决人类不擅长的问题,比如驾驶汽车。

人类驾驶汽车的表现非常糟糕。2015 年,仅美国就有 35,000 人因车祸死亡。这绝大多数是由于驾驶员分心或失误造成的。驾驶需要巨大的专注和快速反应能力,并且持续保持几个小时。事实证明,我们经常做不到。

当人们谈论在项目中使用 AI 时,他的意思通常是, 将项目分解成上面的流程图,然后构建出正确的 AI 模型。 这个过程始于收集训练模型所需的例子(这通常也是最困难的任务),然后是选择模型的基本形状(即「神经网络」、「决策树」等针对不同问题的基本模型)并进行训练;再之后是最重要的事——弄清楚什么是坏的,并对其进行调整。 

打个比方,看看下面的六张图片,找出前三张和后三张的关键区别:

和AI谈伦理、道德和谎言

▲ AI 关注的特征,可能不是你真正关心的东西。

如果你猜「前三张都有地毯」,那么你猜对了!如果你猜「前三张是灰猫的照片,后三张是白猫的照片」,你也是对的。但如果你使用这些图像来训练你的灰猫探测器,那么在现实中,这个 AI 模型的表现会很糟糕,因为它实际学到的是, 「灰猫就是地毯上一些类似猫形状的东西」。

当你的模型学习到了训练数据的特征,但这些特征却 不是你真正关心的东西 的时候,就会出现 「过拟合」。 大部分时间里,构建机器学习系统的人都在担心这个问题。

什么使某本书成为了「好小说」,

AI 也无法回答

接下来,我们来谈谈 AI 究竟是有用还是无用。

如果你想要实现的目标、实现这些目标的手段都很清晰,这种问题就不需要 AI 来解决。 例如,如果目标是「将车轮上的所有螺母拧紧到 100 英尺磅」,你只需要一个能够拧紧和测量扭矩的扳手,并在扭矩达到 100 英尺磅时停止拧紧就好。如果有人要给你提供一个 AI 扳手,你会问他们,我为什么需要这个? 这降低了 AI 的阈值。

再比如,对机器来说,想要实现和人类一样的 「运动规划」 是非常困难的。我们的大脑付出了比其他事情多两倍的专注来做这件事。

现在拿起一个你旁边的物体,比如一个空的汽水罐,观察你的手臂是怎样运作的。

我的观察是:胳膊快速地沿肘部转动,将手从键盘上水平移动到离汽水罐几英寸的垂直位置,然后迅速停止。接下来,它向前移动,以比第一个动作慢得多、但其实还是很快的速度,把手掌打开的微大于罐头的直径。直到拇指出现在其他手指的对面后,手掌合拢,并在遇到阻力时立即停下。然后,手臂开始抬起,从肩膀起(保持肘部固定)就保持收紧状态,让手牢固地握住罐子但又不使罐子变形。

同属此类的其他任务还有面部识别(大脑的视觉功能大部分不是通用视觉,而是专门用于识别脸部的)。我们感觉这些事情并不难,是因为我们的大脑中有一大块专注于认识面孔。如果没有,我们看人就会像看犰狳一样。现在计算机正是如此。

和AI谈伦理、道德和谎言

▲ 「运动规划」对 AI 而言是件难事。

那么,AI 能够帮助你解决哪些问题?

我的回答是: 目标明确,但实现目标的手段不明确的问题。

具体来说,有以下几个条件:

  • 外部刺激的数量有限,模型能够了解它们;

  • 必须控制的元素数量有限,我们不需要考虑过多;

  • 要做的决定数量很大,我们不太容易直接写下规则;

  • 能够很容易的把一个动作和一个可观察的结果联系起来,因而可以很容易地弄清楚什么奏效,什么无效。

比方说玩一盘赛车游戏。开始时,你行动的后果是非常明显的:当你应该转弯的时候,你就要转弯,如果你撞到墙上,游戏就结束。但当你更擅长比赛之后,你就会开始意识到,「糟糕,我错过了一个重要的升级,五分钟后我就要完蛋了」。你可以预见到更久之后的后果了。AI 可以加速这个理解的过程。

我们谈到了目标和手段都很清楚的情况,以及目标清楚但手段不清楚的情况。还有第三种情况,AI 根本无法帮助。那就是, 连目标本身都没有被很好地理解。

计算机不善于自我欺骗,它编程的第一条规则是: 如果你想要他们做某件事,就必须向他们解释你想要的东西。  但实际上,很多时候我们都不知道「好目标」的真正定义。在这种情况下,你怎么知道你是否成功了?

综合起来,对 AI 来说,实现目标的难易程度从易到难依次是:

  • 环境可预测,直接目标明确。例如在一条很快就会出现汽车的装配线上,一台 AI 传感器的目标是识别到车轮。

  • 环境不可预测,直接目标明确。例如自动驾驶汽车,目标可以直接描述为「从 A 点安全行进到 B 点,且速度合理」,但过程中可能包含许多意外。AI 在过去几年里刚刚发展到可以向这些问题发起冲击的地步。

  • 环境可预测,目标较间接,和行为之间的关系非常遥远。比如计划你的财务组合。这是一个比较棘手的问题,我们还没有取得重大进展,但是我希望我们能够在未来十年内把这些做好。

  • 目标不明确。AI 无法解决这些问题。写小说就是一个例子,因为没有一个明确的答案可以回答,什么使某本书成为「好的小说」。

AI 的伦理与现实世界:

别对我说谎

现在,我们开始看看问题的真谛:有哪些事情,AI 的成败会产生重大影响?

这里有六个可供思考的例子。它们主要的帮助不在于给出了正确答案,而是提出了正确的问题。

乘客和行人 

一辆自东驾驶汽车正在穿过一座狭窄的桥。这时,一个小孩突然从前面跑出来。汽车停下来已经太迟了。它能做的只有前进,将小孩撞飞,或者转弯,把自己和乘客送到下面奔流的河里。它应该怎么做?

这个问题已经被公开讨论过了,它展示了我们真正需要问的问题。

和AI谈伦理、道德和谎言

▲自动驾驶能够规避由于驾驶员分心或反应慢而造成的危险。

当然了,我们承认这个问题有一个漏洞——它在实践中出现的概率很小,因为自动驾驶汽车从一开始就会规避这种情况。大多数情况下,这种情况的发生要么是因为驾驶员的反应不够快,无法处理从障碍物后面跳出来的孩子,要么是驾驶员出于某种原因分心,注意到孩子的时候已经太迟了。但这些问题对于自动驾驶来说都几乎不存在。

但「几乎从不」与「绝对不会」并不一样。我们不得不承认,有可能会发生这种情况。当它发生时,车应该做什么?

如果是人为驾驶,我们或许会说,「这取决于当时的情况」。但现在, 自动驾驶的编程里留下了一个空格,它要求我们在事故发生前就给它答案, 然后它会按照我们告诉它的做。这就要求我们 对自己想要的决定保持残酷的诚实。

礼貌性地编造

AI 模型有一个非常讨厌的习惯:他们会分析数据显示给他们的东西,然后告诉你他们学到了什么。

2016 年,高中生卡比尔·艾力(Kabir Alli)试图在 Google 上搜索「三个白人青少年」和「三个黑人青少年」。他得到的结果很糟糕。「三个白人青少年」展现了迷人的、运动型的青少年身影;「三名黑人青少年」则显示了三名黑人青少年被捕的新闻报道中的照片。(现在,搜索结果大部分都是关于这个事件的新闻报道。)

和AI谈伦理、道德和谎言 ▲ 比尔·艾力(Kabir Alli)的搜索结果。

这并不是因为 Google 的算法中存在偏见,而是 底层数据就自带偏见。 这种特殊的偏见源自「无形的白人主义」和媒体报道的结合。如果三名白人青少年因犯罪被捕,媒体不太可能展示他们的照片,也不太可能特意提出他们是「白人青少年」。但如果三名黑人青少年被捕,你可以找到在上面提到的新闻报道中出现的那句话。

许多人对这些结果感到震惊,因为这似乎与「忽视种族」的国家观念不一致。但数据明确显示了,当人们用高质量的图像在媒体上说「三个黑人青少年」时,他们总是把这些孩子作为罪犯在谈论,而当他们谈到「三个白人青少年」,几乎都是广告摄影。

如果你手动地输入「忽略种族」的特征,这些特征仍然会通过后门进入。例如,某人的邮政编码和收入可以非常准确地预测他的种族。AI 模型很快就会将其视为「最好的规则」。

AI 模型在我们面前举起了一面镜子,它不明白我们什么时候不想诚实。 它只会礼貌性编造,如果我们告诉他们如何提前撒谎的话。 

一个例子是最近的一篇关于「文字去除」的技术论文。一个叫做word2vec的 AI 模型学习了英语单词含义之间的各种关系(比如「国王对男性」,「女王对女性」),之后发现模型中包含了不少社会偏见的例子。例如,「电脑 程序员 对男人来说,就像家庭主妇对女人一样」。

进而,作者在论文中提出了一种消除性别偏见的文字去除技术。 模型的整个程序相当合理的:首先分析单词,找到沿着性别轴线对立性分开的单词组;接下来, 找一组人去辨别哪些对应关系是有道理的(例如男孩对男人/女人对女人), 以及哪些对应关系中代表了社会偏见(譬如程序员对男人/家庭主妇对女人);最后,运用数学技术从模型中去除了带有偏见的词组,留下了一个改进后的模型。 

但这个过程并不是完全依靠自动化的模型来完成的。确定哪些男性/女性分化应该被删除的关键步骤是人为的决定。

原来的模型来自对世界各地数以百万计的书面文本的分析,准确地捕捉到了人们的偏见。而清理后的模型则准确地反映了评估者认为哪些偏见应该被删除的偏好。说修改后的模型更准确地反映了世界是什么样的,那是不对的。

大猩猩事件

2015 年 7 月,当我担任 Google 社交工作(包括照片)的技术负责人时,我收到了一个紧急信息:我们的照片索引系统公开把一个黑人和他的朋友的照片描述成为「大猩猩」。我立即给团队打电话。团队采取行动,禁用了违规表征以及其他几个有潜在风险的表征。

许多人怀疑,这个问题和六年前惠普的脸部摄像机不能在黑人身上工作的问题,有一样的原因:「面孔」的训练数据完全是由白人组成的。我们开始也这么怀疑,但很快就排除了这个原因,因为训练数据包括了各种种族和肤色的人。

出现这个问题的真正原因很微妙。

首先是 人脸识别很难。 面孔的相似性比我们想象的要大得多——甚至是跨物种之间。这个照片索引系统也容易把白种人的脸误认为是狗和海豹。

第二个问题是核心:机器非常聪明,但除非你教导它,否则它对于更广泛的世界一无所知。 没有人会向它解释黑人因为被歧视而长期被比作猿人。 这个背景使得机器会把这两件事联系起来。

与人类相关的问题通常会和极其微妙的文化问题联系在一起,我们很难提前想到它们。当需要 在不同的文化环境中做出价值判断 时,这些问题几乎完全要由人类来处理,而不能够是 AI。

和AI谈伦理、道德和谎言

▲ AI 缺乏道德文化背景信息,在相关问题上难下判断。

即便是制定人类用来判断这些事情的规则都非常困难。文化障碍是一个巨大的问题。印度的评论家不一定具有关于美国的种族歧视的文化背景,在美国的人也不一定有印度文化背景。世界各地的文化数量是巨大的。你怎样以任何人都可以理解的方式来表达这些想法呢?

我曾在 Google 花了一年半的时间来做这件事。而我从中学到的教训是: 系统中最危险的风险,通常不是来自系统内部,而是来自系统与更广泛的外部世界互动时意想不到的问题。 我们还没有一个好方法来管理这些。

不幸的是,人工智能会按你说的做

人工智能的一个重要用途是帮助人们做出更好的决策。 当这些选择具有高风险时,AI 最有价值。 如果没有明确有用的信息,人类可能会轻易地采纳无意识的偏见,而不是真正的数据。许多法院都开始使用自动化的「风险评估」作为他们量刑指引的一部分。如果你拿一个地区法院的全部历史语料来训练模型,它可以清晰地告诉你谁是潜在危险分子。

如果你到目前为止一直在仔细阅读,你可能会想出一些方法来实现这个目标。但这些方法可能会非常可怕,非常错误,正如 2016 年 ProPublica 揭露的那样。

佛罗里达州布劳沃德县法院使用了 COMPAS 系统,其设计者遵循了最佳实践原则,确保训练数据没有人为地偏袒某个群体,将种族排除在模型的输入特征之外。但 AI 模型并没有预测出他们认为该预测的事情。

COMPAS 系统根据过往判刑时所得知罪犯信息,来判断了一个人将被定罪的概率,或者用两个人来对比,得出哪一个最有可能在将来被定罪的结论。如果你对美国政治有一点了解的话,你可以立即回答这个问题:「黑人!」黑人比白人更可能被在路上截住,被逮捕,定罪并给予比白人更长的刑期。所以,查阅历史数据的 AI 模型,也预测出了一个黑人被告在未来更有可能被定罪。

但这个模型被训练的方法和它的真正用途并不符合。它被训练回答「谁更可能被定罪」,但我们的问题却是「谁更有可能犯罪」,没有人注意到这是两个完全不同的问题。

这里有一个问题值得注意: 你想要 AI 模型判断的事情,和它可以判断事情之间经常有差异。 在相信 AI 模型之前,你需要非常仔细地理解这些相似和不同。 

人是一个会自我合理化的动物 

在机器学习的讨论中有一个新的热门话题: 解释权。 它的意思是,如果 AI 被用来做任何重要的决定,人们有权理解这些决定是如何做出的。

直觉上,这似乎是显而易见的事。但当专业人员提到这一点时,他们的脸色立刻就变了。他们知道,这事实上是不可能的。

为什么会这样?

在上文中,我将 AI 模型的决策机制描述为数百至数百万个「旋钮」。这个比喻对实际模型的复杂性来说并不公平。例如,基于 AI 的语言翻译系统一次只能输入一个字母,但模型必须在阅读了大量的字母之后,才能理解文本。它所做的唯一「解释」是:「好吧,后面的几千个变量是这样的状态,然后我看到字母 c,这应该改变了这个词在谈论狗的概率…」

AI 系统的调试是该领域最难的问题之一,因为在任何时候,检查变量的个体状态,然后向你解释这个模型,就像测量一个人的神经潜能然后会告诉你他们吃晚饭的时间差不多困难。

我们总觉得我们可以解释自己的决定,而且是人们期望的那种解释。 比如,他们期望 AI 解释:「考虑到它们的 FICO 分数中位数,我把这个抵押贷款的利率设定为 7.25%。」或者是「如果 Experian 的 FICO 分数高了 35 分,那么利率就会下降到 7.15%。」又或者是「我建议你聘请这个人,因为他们在面试中清晰地解释了机器学习。」

但是每个认知或行为心理学的人都知道一个黑暗的秘密, 所有这些解释都是无稽之谈。 我们是否会喜欢一个人,在聊天开始的最初几秒就已经决定了,而且可能会受到一些看似随意的事情的影响,比如在握手之前,他握着的是热饮还是冷饮。

和AI谈伦理、道德和谎言

▲ 人类总会合理化自己的行为,但 AI 不擅长于此。

事实证明,人们所擅长的并不是解释他们是如何做出决定的,而是 为自己的决定找出合理的解释。 有时候,这完全是无意识的,例如,我们在决策过程中会突出一些事实(「我喜欢这辆汽车的颜色」),并将注意力集中在这一点上,而忽略了对我们来说可能更重要但是看不见的因素(「我的继父有一个敞篷车,我讨厌我继父」)。(「第一个候选人听起来就像我毕业时那样」;「那个女人很好,但是她看起来太与众不同,她不适合和我一起工作。」)

如果我们期望 AI 系统为决定提供实际的解释,我们就会遇到很多麻烦。现在,只有像「决策树」这样的模型可以被人们完全理解,而在许多实际应用中最有用的模型,如神经网络,则完全无法被理解。

人类的大脑有极度通用的智慧来处理各种概念,因而可以解决这个问题。你可以告诉它,在涉及种族历史时应该对图像识别格外小心,因为同一个系统(大脑)可以理解这两个概念。但 AI 还远远不能做到这一点。 

AI 归根到底只是一个工具 

人工智能无人机杀手——不提出这个大家都喜欢的例子就没法探讨 AI 道德。这些飞机在高空飞行,仅由计算机控制,在维护平民生活的同时实现杀害敌方武装分子的任务……除非它们认为任务需要一些「附带损害」,就像官方委婉说法那样。

人们对这样的设备感到害怕。如果再听一些正生活在永恒的死亡威胁之下的人们的故事,他们会更加害怕从晴朗的天空中横空出世的杀手。

大型无人机与有人驾驶飞机的不同之处在于,无人机的飞行员可以远在千里之外,远离伤害。大型无人机可以在 99% 的时间内自行驾驶,只有在需要作出重大决定时才会呼叫人。

现在我们可能会问,谁来承担完全由机器人决定的杀人的道德责任?

这个问题既比我们想象的要简单,同时也要更复杂。如果有人用石头击中另一个人的头,我们责怪这个人,而不是石头。如果他们投掷长矛,即使矛在某一段飞行期间「处于自己的力量之下」,我们也绝不会想要责怪矛。但现在,「工具」自己决定的范围变得模糊。

简单的地方在于,这个问题并不是全新的。军事纪律的很大要点是要建立一个在战斗中不要过于自主思考的秩序,军士和士官的作用是执行计划。因此,从理论上讲,决策责任完全是在官员肩上,根据军衔,指挥官等区分人员责任区的明确界定决定了谁最终对任何一个指令负责。但在实践中,这往往是相当模糊的。

还有很多我们应该讨论的问题,其中很多对这个社会来说都是非常紧迫的。我希望上面的例子能够让你理解事情什么时候是对的,什么时候不对头,以及许多的 AI 道德风险源于何处。

我们面临的关于 AI 的许多问题,大多都不是新问题。只不过现在,这些问题又通过技术上的一些变化而显露出来。

由于 AI 没有文化背景、也没有能力推断出我们的言外之意,因而它迫使我们以违背日常习惯的方式来表达。无论是要求我们在紧要关头到来之前就做出生死攸关的决定,还是要求我们长期严格的审视社会的实际情况,并态度鲜明的表达我们想要保留哪些部分、改变哪些部分。

AI 把我们推离了「礼貌性编造」的舒适区,进入了一个我们必须非常明确地讨论事物的世界。这可能并不容易,但对我们来说,诚实可能是新技术可以给我们带来的最宝贵的礼物。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

用户故事地图

用户故事地图

Jeff Patton / 李涛、向振东 / 清华大学出版社 / 2016-4-1 / 59.00元

用户故事地图作为一种有效的需求工具,越来越广泛地应用于开发实践中。本书以用户故事地图为主题,强调以合作沟通的方式来全面理解用户需求,涉及的主题包括怎么以故事地图的方式来讲用户需求,如何分解和优化需求,如果通过团队协同工作的方式来积极吸取经验教训,从中洞察用户的需求,开发真正有价值的、小而美的产品和服务。本书适合产品经理、用户体验设计师、产品负责人、业务分析师、IT项目经理、敏捷教练和精益教练阅读和......一起来看看 《用户故事地图》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

SHA 加密
SHA 加密

SHA 加密工具