如何评价ST-GCN动作识别算法？

内容简介：同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流*延伸阅读

加入极市专业CV交流群，与 6000+来自腾讯，华为，百度，北大，清华，中科院 等名企名校视觉开发者互动交流！更有机会与 李开复老师 等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“ 阅读原文 ”立刻申请入群~

香港中大-商汤科技联合实验室的 AAAI 会议论文「Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition」，提出了一种新的 ST-GCN，即时空图卷积网络模型，用于解决基于人体骨架关键点的人类动作识别问题，本文是对这一工作的解读分析。

作者 | 纵横

论文 | https://arxiv.org/pdf/1801.07455.pdf

来源 |

https://www.zhihu.com/question/276101856/answer/638672980

质胜文则野，文胜质则史，文质彬彬，然后君子。

GCN 升温的这两年里，动作识别领域出了不少好文章。这也不奇怪，毕竟动作识别以前就有 Graph 的相关应用，套用一下 GCN 总是会有提升的。不过，一年过去了，超过 Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition 的工作仍然寥寥可数。我等屁民还是挺佩服的~

还在这个领域耕耘的同学们也不用灰心丧气，ST-GCN 作为一篇开山作（或者说占坑文），很多地方都从简了。要想提升不太困难~ 用大粗话来说，作者的主要工作就两点：

使用 OpenPose 处理了视频，提出了一个数据集
结合 GCN 和 TCN 提出了模型，在数据集上效果还不错

但是，这篇文章在工程和学术上都做到了文质彬彬：

从质上讲，文中针对性的改进着实有效，结果比较令人满意
从文上讲，故事讲的很棒，从新的视角整合了卷积、图卷积和时间卷积
从代码讲，结构清晰、实现优雅，可以当做模板

很多同学比较关心 st-gcn 到底做了什么，这里用个简单的思路说说我的理解。

OpenPose 预处理

OpenPose 是一个标注人体的关节（颈部，肩膀，肘部等），连接成骨骼，进而估计人体姿态的算法。作为视频的预处理工具，我们只需要关注 OpenPose 的输出就可以了。

总的来说，视频的骨骼标注结果维数比较高。在一个视频中，可能有很多帧（Frame）。每个帧中，可能存在很多人（Man）。每个人又有很多关节（Joint）。每一个关节又有不同特征（位置、置信度）。

对于一个 batch 的视频，我们可以用一个 5 维矩阵如何评价ST-GCN动作识别算法？表示。

代表视频的数量，通常一个 batch 有 256 个视频（其实随便设置，最好是 2 的指数）。
代表关节的特征，通常一个关节包含等 3 个特征（如果是三维骨骼就是 4 个）。
代表关键帧的数量，一般一个视频有 150 帧。
代表关节的数量，通常一个人标注 18 个关节。
代表一帧中的人数，一般选择平均置信度最高的 2 个人。
所以，OpenPose 的输出，也就是 ST-GCN 的输入，形状为。

想要搞 End2End 的同学还是要稍微关注一下 OpenPose 的实现的。最近还有基于 heatmap 的工作，效果也不错~

ST-GCN 网络结构

论文中给出的模型描述很丰满，要是只看骨架，网络结构如下：

主要分为三部分：

首先，对输入矩阵进行归一化，具体实现如下：

N, C, T, V, M = x.size()

# 进行维度交换后记得调用 contiguous 再调用 view 保持显存连续

x = x.permute(0, 4, 3, 1, 2).contiguous()

x = x.view(N * M, V * C, T)

x = self.data_bn(x)

x = x.view(N, M, V, C, T)

x = x.permute(0, 1, 3, 4, 2).contiguous()

x = x.view(N * M, C, T, V)

归一化是在时间和空间维度下进行的（）。也就是将一个关节在不同帧下的位置特征（x 和 y 和 acc）进行归一化。

这个操作是利远大于弊的：

关节在不同帧下的关节位置变化很大，如果不进行归一化不利于算法收敛
在不同 batch 不同帧下的关节位置基本上服从随机分布，不会造成不同 batch 归一化结果相差太大，而导致准确率波动。

接着，通过 ST-GCN 单元，交替的使用 GCN 和 TCN，对时间和空间维度进行变换：

# N*M(256*2)/C(3)/T(150)/V(18)

Input：[512, 3, 150, 18]

ST-GCN-1：[512, 64, 150, 18]

ST-GCN-2：[512, 64, 150, 18]

ST-GCN-3：[512, 64, 150, 18]

ST-GCN-4：[512, 64, 150, 18]

ST-GCN-5：[512, 128, 75, 18]

ST-GCN-6：[512, 128, 75, 18]

ST-GCN-7：[512, 128, 75, 18]

ST-GCN-8：[512, 256, 38, 18]

ST-GCN-9：[512, 256, 38, 18]

空间维度是关节的特征（开始为 3），时间的维度是关键帧数（开始为 150）。在经过所有 ST-GCN 单元的时空卷积后，关节的特征维度增加到 256，关键帧维度降低到 38。

个人感觉这样设计是因为，人的动作阶段并不多，但是每个阶段内的动作比较复杂。比如，一个挥高尔夫球杆的动作可能只需要分解为 5 步，但是每一步的手部、腰部和脚部动作要求却比较多。

最后，使用平均池化、全连接层（或者叫 FCN）对特征进行分类，具体实现如下：

# self.fcn = nn.Conv2d(256, num_class, kernel_size=1)

# global pooling

x = F.avg_pool2d(x, x.size()[2:])

x = x.view(N, M, -1, 1, 1).mean(dim=1)

# prediction

x = self.fcn(x)

x = x.view(x.size(0), -1)

Graph 上的平均池化可以理解为对 Graph 进行 read out，即汇总节点特征表示整个 graph 特征的过程。这里的 read out 就是汇总关节特征表示动作特征的过程了。通常我们会使用基于统计的方法，例如对节点求如何评价ST-GCN动作识别算法？等等。mean 鲁棒性比较好，所以这里使用了 mean。

插句题外话，这里的卷积和全连接层等效，最近在用 matconvnet 的时候，发现它甚至不提供全连接层，只使用的卷积。

GCN

从结果上看，最简单的图卷积似乎已经能取得很好的效果了，具体实现如下：

def normalize_digraph(A):

Dl = np.sum(A, 0)

num_node = A.shape[0]

Dn = np.zeros((num_node, num_node))

for i in range(num_node):

if Dl[i] > 0:

Dn[i, i] = Dl[i]**(-1)