内容简介:Sockeye 是一个基于 Apache MXNet 的快速而可扩展的深度学习库。Sockeye 代码库具有来自 MXNet 的独特优势。例如,通过符号式和命令式 MXNet API,Sockeye 结合了陈述式和命令式编程风格;可以在多块 GPU 上并行训...
Sockeye 是一个基于 Apache MXNet 的快速而可扩展的深度学习库。Sockeye 代码库具有来自 MXNet 的独特优势。例如,通过符号式和命令式 MXNet API,Sockeye 结合了陈述式和命令式编程风格;可以在多块 GPU 上并行训练模型。
目前 Sockeye 更新到 3.0.7 版本,改进了训练速度,内容如下:
[3.0.7]
在训练期间使用 torch.nn.functional.multi_head_attention_forward 的自注意力和编码器注意力来提高训练速度。
需要重新组织键值输入投影的参数布局,因为当前的 Sockeye 注意力会交错以进行更快的推理。注意掩码(源掩码和自回归掩码都需要一些形状调整,因为对融合 MHA 操作的要求略有不同)。
- 联合键值输入投影参数的非交错格式:
in_features=hidden, out_features=2*hidden -> Shape: (2*hidden, hidden) - 联合键值输入投影的交错格式存储键和值参数,按头部分组:
Shape: ((num_heads * 2 * hidden_per_head), hidden) - 模型以交错格式保存和加载键值投影参数。
- 当
model.training == True键值投影参数被放入非交错格式时torch.nn.functional.multi_head_attention_forward - 当
model.training == False,即 model.eval() 被调用时,键值投影参数再次转换为交错格式。
[3.0.6]
- 修复了阻止使用
bleuas--optimized-metric进行分布式训练的检查点解码器问题(#995)
[3.0.5]
- 修复了多语言教程中的数据下载。
更新公告:https://github.com/awslabs/sockeye/releases/tag/3.0.7
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- OpenCV 3.4.1 发布,扩展深度神经网络模块
- 深度解读 OpenYurt:从边缘自治看 YurtHub 的扩展能力
- 腾讯基于 Flink SQL 的功能扩展与深度优化实践
- DeepCTR:易用可扩展的深度学习点击率预测算法库
- OpenCV 3.4.3 发布,进一步扩展深度神经网络模块
- 谷歌开源分布式机器学习库GPipe,用于扩展深度神经网络培训
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Numerical Methods and Methods of Approximation in Science and En
Karan Surana / CRC Press / 2018-10-31
ABOUT THIS BOOK Numerical Methods and Methods of Approximation in Science and Engineering prepares students and other readers for advanced studies involving applied numerical and computational anal......一起来看看 《Numerical Methods and Methods of Approximation in Science and En》 这本书的介绍吧!
JSON 在线解析
在线 JSON 格式化工具
UNIX 时间戳转换
UNIX 时间戳转换