我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

栏目: 数据库 · 发布时间: 5年前

内容简介：这是一个真实的故事。前几天，我和一群小伙伴在新加坡参加了一场神秘的黑客大会，具体是什么大会，以后再说。我先说说你们感兴趣的“寻找红灯区事件”。我们本来纯洁地打算寻找吃榴莲的圣地，不料女导游神秘兮兮地介绍，新加坡有个地区叫芽笼，是个开展合法羞羞服务的区域，就在你们吃榴莲的地方附近哦。蛤？贵坡还有这么不符合我们社会主义核心价值观的地方？

这是一个真实的故事。前几天，我和一群小伙伴在新加坡参加了一场神秘的黑客大会，具体是什么大会，以后再说。我先说说你们感兴趣的“寻找红灯区事件”。

我们本来纯洁地打算寻找吃榴莲的圣地，不料女导游神秘兮兮地介绍，新加坡有个地区叫芽笼，是个开展合法羞羞服务的区域，就在你们吃榴莲的地方附近哦。

蛤？贵坡还有这么不符合我们社会主义核心价值观的地方？

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

车上的小伙伴顿时来了兴致，强烈要求司机载着我们在芽笼区域晃荡一圈。而且，一位男同学提出了一个相当正经的问题：听说提供这些服务的场所就隐藏在大街小巷里，我们怎么区别什么样的场所是红灯区？迷路怎么办？

女导游羞涩地朝着一个方向指过去：你们看，新加坡的这些街巷分成了单双号，在这个区域，单号街道都是正经吃喝的地方，一般红灯区隐藏在双号街道里哦。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

【图片来源：新加坡眼所有者：新加坡眼】

为了再一次教我们辨别什么是提供特殊服务的小店，导游指出，一般在这些场所外面，会挂上两个红灯笼，这些灯笼会在夜晚点亮。

可是，这辆大巴转了许久，我们还是没有看到红灯笼，不禁失望至极，导游安慰我们：对了，有些场所不挂灯笼，但有 bling bling 的霓虹灯，你们如果在这个区域的双号街巷看到闪烁的五颜六色，那就八九不离十了！

我之所以想起寻找红灯区事件，是因为1月16日，我参加了阿里安全部的一次年度媒体沟通会，AI 鉴黄被作为一个典型的安全 AI 应用案例推出。我才发现，相较于肉身寻找红灯区，AI 早就在鉴定黄赌毒上一路狂奔了。

但是，厉害如 AI 唐马儒，竟然也面临着安全风险。

本文作者：雷锋网网络安全专栏作者，李勤，微信：qinqin0511

攻击者 VS AI老司机

我们来看看，发生了什么。

阿里目前有三大战略领域：传统电商、数字化娱乐和新零售，这三个领域都涉及到网络安全，比如，原创内容保护、内容治理和网络黑灰产对抗。

以内容治理为例，由于淘宝体量巨大以及内容生态越来越繁荣，淘宝的短视频每天的观看量差不多能达到 20 亿次，这就衍生了一个问题：如何让内容合法合规？

阿里安全部图灵实验室高级算法专家威视（花名）告诉我，在过去一年网信办接到的各种违规信息举报中，超过 70% 的举报涉及色情低俗，这意味着，色情低俗风险确实是各种内容面临的合规风险中占比最大的一种，所以，在巨大的信息中，运用 AI 寻找黄色内容，规避内容风险成了一个强需求。

现在出现了一类不正经的算法工程师，他们被称为“调包侠”，虽然他们可能并不理解 AI 技术底层如何实现，但特别擅长调包—— 调用别人的开源代码，将一些非法信息灌进去，训练出一个特殊模型。这导致了另一个问题——安全研究员辛辛苦苦训练出的 AI 唐马儒竟然可能叛变，就像被人塞了小红包，对黄色内容睁一眼闭一眼。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

【图片来源：pconline 所有者：pconline 】

更让人担忧的是，还有更多安全对抗在发生。

第一回合：没用上 AI 技术，违规信息对抗在不同媒体间转移。

以商品信息为例，一开始，色情低俗信息，直接写在商品标题里面，比如：“看爽片XXX”，立马能找到不可描述的东东。

安全技术专家像打地鼠一样，敲掉了标题里的色情低俗。现在一搜“看爽片”“爽片”，出来的分别是这样的商品：

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

【雷锋网 (公众号：雷锋网) 注：仅为搜索结果示例】

攻击者马上把违规信息转移到了商品的主图、副图中。由于色情图片具有较强的视觉可分性，图片的鉴黄比较容易开展，攻击者发现自己被拦住之后，开始做拼接图，把违规信息拼在一个正常背景中，或者通过翻拍逃避检测。

甚至，当他们发现，算法对彩色图片的识别效果好，攻击者就用黑白图片，后来，整张图片容易被识别，就变成局部暴露，比如，衣服裹得严严实实的，只漏出关键的一点点。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

或者，用美图工具把常规照片转换成铅笔画、蜡笔风格，甚至素描，当安全技术专家把这些问题解决了，攻击者又想了一个新办法——在图片里写字，开始时，违规文字是正常的印刷体，被识别后，坏人开始用斜体、花体字；又被识别出来后，攻击者干脆用手写，还故意写得很潦草，不断考验识别算法和人类的想象力。

当图片的鉴黄做得差不多时，违规信息转战到了视频、直播里，用音频来做。当违规音频也被干掉时，攻击者更狡猾了，他们把信息拆解开，在图片、文本、语音中分散放置，变成一个典型的多模态问题，这时需要综合各方信息进行判断。

第二回合：高端对抗，坏人掌握了AI 技术。

这种攻击者不仅是调包侠，还懂得了AI技术底层的一些特点。他能进行什么骚操作？

曾有一篇经典论文指出，本来模型识别一张图片，正常的输出结果是一只大熊猫，但是坏人经过一些简单运算，比如像素级别的操作，得到一张新图片，人眼看上去还是一只大熊猫，但是欺骗了识别模型，被模型判断为一只长臂猿。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

坏人是如何做到的？

第一种情况，攻击者知道鉴黄的算法、模型和网络结构。

威视将这种情况称为“白盒攻击”，这种攻击并不复杂和困难，只要花的时间足够长，耐心尝试密码，攻击者总可以打开盒子。

第二种情况，算法使用的模型是不公开的。

在这种黑盒攻击下，攻击者不断用不同图片调用公开的算法接口，分析返回的结果，不断尝试验证哪些方法可以让AI唐马儒输出的结果含糊不清，直到尝试出来某一种修改能够攻破威视等人建立的模型。

威视说，黑盒攻击比白盒攻击成本高很多，这就是闭源模型好处。事实上，没有什么模型是不可被攻破的，只是攻击成本的高低。安全技术专家要做的，就是不断提高攻击门槛。

除了面对攻击者的威胁，AI 鉴定内容风险时还面临天然阻碍：

一是大海捞针，违规信息可能占比不到千分之一，违规样本和正常样本数量呈现出极度的不均衡的态势。

一是新增风险，安全场景面临的新风险往往“临时爆发”，谁能想到，直播主进行吃播时也可能涉黄。。。emmm，比如吃香蕉、喝酸奶等。

新风险下的新方法

对AI 唐马儒而言，深度学习算法强依赖高质量的样本，样本的质量越高，数量越多，鉴定效果就越好。

威视介绍，为此，他们提出了“小样本学习（few-shot learning）”这样的技术。这个方法主要解决两个问题：第一，训练中出现从来没有见过的新类别，每个类别又只有很少的样本；第二，训练新样本后，不能遗忘以前的知识，不能改变已有的模型。

针对上述问题，很多人想到用finetune（微调）的方式解决，也就是在已有模型基础上，用新类别的样本做微调训练。但是，已有的模型依赖很大的样本量训练，比如，需要1000万个训练样本。这时用几十个、一百个样本训练新类别，基本改变不了网络。而且，这种训练还会遗忘以前的知识。

威视告诉我：“发现这条走不通后，我们考察了很多新方法，比如，度量学习（metric learning），学习类和类之间的度量，把不同的类间的距离尽可能地拉大，缩小同类之间的距离，用模式识别的话，就是增大了类间的方差，减少了类内的方差。”

基于度量学习的思路，他们尝试了很多方法，比如，孪生网络（Siamese Neural Networks）、匹配网络（matching networks）、原型网络（Prototypical Networks）等。

这些方法的核心思想是，把样本看作一个点，再来度量不同样本在空间中的分布，利用算法合适地调整分布，让新的类别在原来的样本空间里找到合适的位置，区别原有的类别。

后来，他们还发现了基于图网络（graph neural network）的方法，这种放在在度量学习的基础上展开，图网络把样本不仅看成一个点，它认为，样本和样本之间是有关系的，用点和点之间的边来表达，有点有边就构成一张图。度量学习只学习了点的信息，图网络既学习了点的信息，也学习了边的信息，这样就构成了网络的学习，实际效果优于度量学习。

还有一种“元学习meta learning”方法，利用以往的知识经验指导新任务的学习。AI算法不是从0开始构建自己的知识体系，而是在已有的知识体系之上，快速学习新技能。

威视等人设计了一种新方法，元学习中融合了度量学习的方法，用构成每个类的标签样本的的原型来表征类，进而通过相似度分类（KNN Classification）进行识别。他们在多个数据集上做了验证，结果表明，该方法比基线有不错的提升。

这种新方法被应用在阿里云内容安全的产品中，阿里安全部提供了一个已有模型及训练方法，第一线的运营人员发现可定义的新风险时，他们用几十个或者上百个样本，在页面上点鼠标，上传并标注样本，这个模型就可以进行一次学习。学习之后，模型对没有学习过样本提出结论，这时运营人员需要标注算法的结果，判断哪个做对了，哪个做错了。大概重复两到三轮，模型基本可用了。

这种方法可以让AI应对大部分新增的风险，而且降低了对样本的依赖性，缩短了响应的时间。以前，安全人员需要收集信息，打标，训练模型进行测试，周期比较长的。现在，这些事情都交给了第一线的业务人员，他们可以自主进行几轮迭代和部署，模型可能在几个小时内就能上线，防范新增的风险。

安全 AI 的想象

AI 唐马儒要想比真的唐马儒更厉害，还需要发挥一些想象力。

在阿里安全图灵实验室的实践中，安全人员发现，AI 模型擅长在一些“老司机心知肚明的情况下”处理视觉可分性的任务，比如出现某种明显标志，或者出现了某种动作和场景，但在业务的审核标准里，很多时候连人都需要“脑补”，AI 就面临更艰巨的任务了，比如，在色情低俗的场景下，照片里并没有呈现完整的违规场景，AI表示无能为力，但人却可以想象画面之外发生了什么。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

【滑雪胜地，图片来源：百家号所有者：Strange咖】

即使 AI 唐马儒成了业务相当熟练的老司机，他可能也会忙到吐血，因为新风险实在太多了！

面对不同风险点，难道要每一种都做出来一个模型吗？威视希望，设计多任务网络，模型不仅可以判断色情低俗风险，同时可以判断广告，还可以找人脸，多任务合并到一个网络中。对于计算成本，现在有一种趋势是，业界开始做专门的AI芯片，大幅度提升计算效率，降低成本。

当然，这些仅仅只是一类案例。说了这么多，到底什么是“安全AI”？为什么在大家都提AI、AI安全时，阿里安全要“别出心裁”地来这么一出，并告诉大家，阿里安全要“ALL IN 安全AI”？

阿里安全研究员陆全称：“我们阿里安全有这样一个场景，把 AI 在安全场合进行打磨。其实我们通过 AI 应用在安全去保护AI，通过这样一个不断迭代的过程，把这两个东西形成一个整体。这个整体叫做‘安全AI’，它可以自我进化。”

进化的结果是，他们想培养出一种“人”，“他”是天生就是很好的拳击手，具备高灵活性，非常强壮，还要有高对抗性，最后反哺通用的AI，对整个AI领域提供帮助，促进人工智能的发展。

虽然结尾如此有雄心壮志，机智如你，可能想知道一个问题：你们到底有没有找到红灯区？

A.找什么找，吃猫山王才是正经事。

B.晚上一波人在一个地方偶遇，啊呸，你们在想什么？

C.人不如 AI 老司机，唐马儒别哭，起来再战。

我在新加坡寻找“红灯区”，AI 老司机翻了个白眼

【图片来源： haoqilu 所有者：haoqilu 】

致谢：该文得到了阿里安全图灵实验室高级算法专家华棠、觉奥以及阿里安全资深技术专家铁花的帮助。

本文作者：雷锋网网络安全专栏作者，李勤，微信：qinqin0511

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

算法设计与分析

郑宗汉//郑晓明 / 清华大学 / 2011-7 / 45.00元

《算法设计与分析(第2版)》系统地介绍算法设计与分析的概念和方法，共4部分内容。第1部分介绍算法设计与分析的基本概念，结合穷举法、排序问题及其他一些算法，对算法的时间复杂性的概念及复杂性的分析方法作了较为详细的叙述；第2部分以算法设计技术为纲，从合并排序、堆排序、离散集合的union和find操作开始，进而介绍递归技术、分治法、贪婪法、动态规划、回溯法、分支与限界法和随机算法等算法设计技术及其复杂......一起来看看《算法设计与分析》这本书的介绍吧!

码农工具