计算机看到了什么？

栏目: 数据库 · 发布时间: 7年前

内容简介：在过去十年左右的时间里，主要源于深度学习的进展，计算机视觉取得了巨大的进步。不仅是因为我们有了更新和更好的算法，数码相机和互联网为我们提供了近乎无限的训练数据。更重要的是，原本为计算机游戏所开发的显卡被发现在训练深度神经网络方面具有超强的计算能力。对于想要尝试深度学习和图像识别的人来说，这些都是好消息。如今开发一个猫与狗的分类器只需要Keras库和一个有100行代码的Python notebook文件。但只这样做并不能告诉我们计算机看到了什么。如果我们想要了解人类是如何看的，我们可以打开头骨，然后试图弄清

在过去十年左右的时间里，主要源于深度学习的进展，计算机视觉取得了巨大的进步。不仅是因为我们有了更新和更好的算法，数码相机和互联网为我们提供了近乎无限的训练数据。更重要的是，原本为计算机游戏所开发的显卡被发现在训练深度神经网络方面具有超强的计算能力。

对于想要尝试深度学习和图像识别的人来说，这些都是好消息。如今开发一个猫与狗的分类器只需要Keras库和一个有100行代码的Python notebook文件。但只这样做并不能告诉我们计算机看到了什么。

如果我们想要了解人类是如何看的，我们可以打开头骨，然后试图弄清楚信息如何从眼睛的感光细胞通过视觉皮层流向大脑的其他部分，不过这是相当困难的。更简单的方法是用电极刺激受试者的大脑直到他们能看到蓝色。那么，我们如何用电极刺激神经网络呢？

现代的神经网络通常由堆叠在彼此之上的很多神经层组成。要识别的图像被送入最低层，当信息通过网络传播时，图像的表征变得越来越抽象，直到传播到末端，这时结果标签出现。神经网络说，我看到了一只猫！

用电极探测神经网络可以被归结为反向运行上述的过程。我们不是给神经网络显示图片并询问它看到了什么，而是要给神经网络一些噪音并要求神经网络改变以便让特定的神经元具有最大激活输出。具有这样表征的图像代表了这个特定的神经元能看到的东西，就如同我们刺激那个神经元，人类会看到什么。

让我们用Keras导入一个预先训练好的图像识别神经网络：

model = vgg16.VGG16(weights=’imagenet’, include_top=False)

model.summary()

第二条语句会显示这个神经网络的架构。

我们定义一个优化给定神经元输出的损失函数，然后创建一个迭代Keras函数，通过改变输入图像来优化它。然后我们从充满噪声的图像开始迭代运行16次。（本文中提到的所有代码在GitHub上都可以找到，既有可独立运行的脚本，也有Python notebook文件。请参阅本文末尾的参考资料。）

loss = K.mean(layer_output[:, :, :, neuron_idx])

grads = K.gradients(loss, input_img)[0]

iterate = K.function([input_img], [loss, grads])

img_data = np.random.uniform(size=(1, 256, 256, 3)) + 128.