DeepMind 近日在《自然》杂志上发表了一篇论文,在论文中 DeepMind 详细介绍了 AlphaFold 2 ,并正式开源了 AlphaFold 2,借助 AlphaFold 2 的人工智能系统可以更加准确的预测蛋白质的形状。DeepMind 表示,随着代码库对外公开希望能够扩大 AlphaFold 2 在医疗保健和生命科学等领域的使用。
2018 年 12 月,DeepMind 试图用 AlphaFold 解决蛋白质折叠的挑战,DeepMind 当时表示,AlphaFold 可以比之前的解决方案更精确地预测蛋白质结构。经过两年时间的改进,AlphaFold 2 于 2020 年 12 月推出,新版本进行了多项改进,大幅提升了蛋白质折叠预测。在第 14 届 CASP 的评估结果中,AlphaFold 2 的平均误差仅有 0.1 纳米(相当于一个原子的宽度),人工智能的预测结果可与实验方法的结果相媲美。近日 DeepMind 则正式将 AlphaFold 2 开源。
蛋白质 —— 由氨基酸组成的大分子,是组织、肌肉、毛发、酶、抗体和其他生物体的基本组成部分 —— 是在 DNA 中编码的。正是这些基因定义限制了他们的三维结构,进而决定了他们的能力。但是蛋白质的 "折叠",仅仅从相应的基因序列中是很难弄清楚的。DNA 只包含关于氨基酸残基链的信息,而不是这些链的最终形式。
正如上段所述,蛋白质的形状很重要,因为它有助于确定该蛋白质的功能。大多数药物通过与蛋白质结构中形状非常特殊的 "口袋" 结合而发挥作用。因此,了解蛋白质的确切形状可能是开发新药的关键一步,AlphaFold 2 有可能加速药物研发与发现。
AlphaFold 从生物学、物理学和机器学习领域获得了灵感。 它利用了这样一个事实,即一个折叠的蛋白质可以被认为是一个 "空间图"。AlphaFold 利用一种人工智能算法,试图解释这个图的结构,同时利用进化相关的序列、多序列比对和氨基酸残基对的表示法对它正在构建的隐性图进行推理。
在开源版本中,DeepMind 大大简化了 AlphaFold 2。原本该系统需要数天的计算时间才能为 CASP 的一些条目生成结构,而开源版本的速度大约提升了 16 倍。依据蛋白质的大小它可以在几分钟到几小时内生成结构。
DeepMind 认为,如果进一步完善 AlphaFold,未来可以将其应用于此前蛋白质折叠领域难以解决的问题,包括与流行病学工作相关的问题。去年,DeepMind 预测了 SARS-CoV-2 的几个蛋白质结构,其中包括 ORF3a,而在此之前 ORF3a 的构成一直是一个谜。在 CASP 14 上,DeepMind 还预测了另一种冠状病毒蛋白 ORF8 的结构,该结构后来被科研人员所证实。
除了帮助应对流行病,DeepMind 预计 AlphaFold 2 还将被用于探索目前缺乏模型的数以亿计的蛋白质。在公开的通用蛋白质数据库中,目前有 1.8 亿个蛋白质序列,而只有大约 17 万个蛋白质结构。
DeepMind 表示,它致力于使 AlphaFold "规模化",并与合作伙伴共同探索新的前沿领域,如多种蛋白质如何形成复合物并与 DNA、RNA 和小分子相互作用。今年早些时候,DeepMind 还宣布与位于日内瓦的 "Drugs for Neglected Diseases Initiative" 建立新的合作关系,该组织利用 AlphaFold 确定了非昔硝唑(Fexinidazole)作为有毒化合物美拉胂醇(Melarsoprol)的替代品用于治疗昏睡病。