IT资讯 IBM 推出 Project CodeNet:推进 AI 编码

witt · 2021-05-13 10:30:06 · 热度: 33

为了使代码更易于调试、维护和更新,IBM 宣布推出 Project CodeNet,一个用于推进 AI 对代码的理解和翻译的开源数据集。"我们发现自己处于一个新的时代,必须利用当今强大的技术,如人工智能(AI)和混合云来创造新的解决方案,以实现整个信息技术(IT)管道的现代化进程。"

IBM 推出 Project CodeNet:推进 AI 编码

根据介绍,Project CodeNet 是一个旨在教人工智能编码的大型数据集,它包括了大约 1400 万个代码样本和超过 55 种不同编程语言的大约 5 亿行代码,从现代语言如 C++、 JavaPythonGo 到传统语言如 COBOL、Pascal 和 FORTRAN 都包含在内。同时,该项目还包括高质量的元数据和注释,以及示例输入和输出,以帮助研究人员在将一种编程语言翻译成另一种语言时,能够实现编程意图的等同性。

IBM 方面称,鉴于其丰富的以多种语言编写的程序,他们相信 Project CodeNet 可以作为源到源翻译的基准数据集,并为人工智能和代码做一些多年前 ImageNet 数据集为计算机视觉所做的事情。 

“Project CodeNet 是同类产品中最大、最具差异的数据集,它解决了当今编码中的三个主要用例:代码搜索(自动将一种代码翻译成另一种代码,包括 COBOL 等传统语言);代码相似性(识别不同代码之间的重叠和相似性);以及代码约束(根据开发人员的特定需求和参数定制约束)。”

IBM 还透露,已有一个大型的汽车客户找到他们,要求帮助更新一个价值 2 亿美元的资产,其中包括 3500 个多代的 Java 文件。这些文件由 100 多万行代码组成,用多代 Java 技术开发了十年之久。而通过应用 IBM 的 AI for Code stack,他们已将该企业长达一年的持续代码迁移过程减少到了四个星期。

“我们的团队很高兴为研究人员和开发人员提供易于使用和理解的数据集和一系列技术,同时协助开发可提高代码 AI 效率的算法。借助 Project CodeNet,我们希望随着企业开始其 IT 现代化之旅而产生持久的业务价值。”

详情可查看官方博客

猜你喜欢:
暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册