一个普通工程师，开源项目前要考虑什么？

栏目: 软件资讯 · 发布时间: 5年前

内容简介：OpenAI 在发布 GPT-2 之前，估计想象不到，自己的开源行为给学界、工业界引起了轩然大波，当然这与他们的研究成果大，科研水平高也有着很大关系。作为普通开发者，开源到底会有哪些风险和好处？本文罗列了几个开源前需要考虑的问题，以及部分作者的经验之谈。OpenAI 上周介绍了 NLP 领域内最先进的文本生成模型 GPT-2，但他们最终决定不公开全部的数据，对此给出的说法是：

By 超神经

OpenAI 在发布 GPT-2 之前，估计想象不到，自己的开源行为给学界、工业界引起了轩然大波，当然这与他们的研究成果大，科研水平高也有着很大关系。

作为普通开发者，开源到底会有哪些风险和好处？本文罗列了几个开源前需要考虑的问题，以及部分作者的经验之谈。 O

OpenAI 开源了，结果呢？

OpenAI 在发布 GPT-2 之前，估计想象不到，自己的开源行为给学界、工业界引起了轩然大波，当然这与他们的研究成果大，科研水平高也有着很大关系。

作为普通开发者，开源到底会有哪些风险和好处？本文罗列了几个开源前需要考虑的问题，以及部分作者的经验之谈。

OpenAI 上周介绍了 NLP 领域内最先进的文本生成模型 GPT-2，但他们最终决定不公开全部的数据，对此给出的说法是：

「由于担心该技术被恶意应用，我们不会发布经过培训的模型。」

一个普通工程师，开源项目前要考虑什么？

从 OpenAI 发布 GPT-2 ，到宣布只开源部分成果的过程中，引起了巨大的争议。有观点认为如果全部开源，一定会有恶意使用，甚至引发犯罪；而支持公开的言论认为不公开全部数据，会其他的科研人员对成果复现困难。

Anima Anankumar 致力于机器学习理论和应用的协调发展。她在推特上对 OpenAI 决定发布模型的回应是：

一个普通工程师，开源项目前要考虑什么？

这就是一个非黑即白的问题。你们在利用媒体炒作语言模型。关于这个话题的研究有很多。你们声称研究结果效果惊人却只让记者了解个中详情。应该有知情权的是研究人员而不是记者。

Stephen Merity 对社交媒体的回应进行了总结，他感叹机器学习社区在这方面的经验不多：

一个普通工程师，开源项目前要考虑什么？

今日总结（关于 OpenAI）：在负责任的披露，双重使用或如何与媒体互动方面，我们都没有对这件事情达成任何共识。这应该是和我们每个人，领域内外的人都息息相关。

开源这个事情，相信很多人都已经从中收益。那么牵涉到我们作为独立工程师或依附于公司或机构的工程师，我们自己的模型要不要开源呢？

有人总结了一份指南，可以在你踌躇不定时，引导你往前一步去思考。

给普通工程师的硬核开源建议Q

是否要去考虑开源自己的模型？

当然是要！

无论最终结果如何，思考一下模型开源的可能性，不要完全回避开源。不过，如果你的模型涉及到私密数据，一定要考虑到不法分子，可能通过反编译获取原数据的风险。 Q

如果模型全部来自公开数据集，我需要担心什么问题？

即使都来自于公开数据集，但是与其他人研究方向和目的的不同，可能会带来新的影响。

因此，需要问一个问题：即使只使用公开数据集，但不同的研究方向是否会对数据或模型会造成什么影响？

比如在阿拉伯之春期间，有些地区因为动乱导致经常封路，当地年轻人就在 Twitter 上吐槽，而有关组织，就利用监控 Twitter 上的用户的内容来分析敌对方的军事路线。

单条数据看起来可能没什么用，但一旦数据被组合起来，就有可能产生许多敏感的结果。

所以，要去考虑这个问题：模型中的数据合并起来，是否会比单个数据点更加敏感？

一个普通工程师，开源项目前要考虑什么？

如何评估开源后的风险？

从安全性去考虑，权衡「不开源」和「开源却被滥用」所造成的影响，哪一个更严重。？

要将每个策略视为「可更改的梗安全措施的成本，可能高于被保护的数据价值。比如有些信息涉及私密，但有时效性作为前提，一旦过了时效，信息就不再私密，但却依然有极大的研究价值。

因此，对于不好的安全策略也要及时舍弃，高效地识别和维护数据集价值。

此外，衡量一下模型使用的复杂程度，和坏人拿来利用的门槛来比，哪个更容易？确认过这个影响，再去决定是否开源。

在 OpenAI 的案例中，他们可能认为不开放全部模型，就足以阻止互联网上的恶意使用。

但要承认，对于不少业内人士来说，即使开放了全部模型，都不一定能复现得出论文，有心恶意利用的人也需要很大的成本。

我应该相信媒体们所描述的开源的风险吗？

不。

媒体的描述总是会引导舆论，记者们想要更高的阅读量，耸人听闻的标题和观点会更吸引人。记者们可能倾向于开源，因为这样他们更容易报道，另一方面，不开源的决定可能导致怂人听闻的谣言（与 OpenAI 案例一样，开不开源都会被媒体记者们各种夸大其词）。 Q

应该相信有关部门对开源风险的意见吗？

显然也是不。

当然首先要自己确保研究是合法合理的，那些政府机构的工作人员也可能并不专业，他们可能更关心舆论的压力，正所谓「没有事，就是好事」，所以他们的观点也不是判断是否开源的关键。

不过也要像记者一样，既将政府视为重要的合作伙伴，同时也意识到彼此有不同的诉求。

一个普通工程师，开源项目前要考虑什么？

应该思考应对开源后负面用例的解决方案吗？

是的！

这是 OpenAI 此次没做好的地方。如果模型能被用来创建假新闻，那么假新闻也可能被进一步的检测出来。比如创建一个文本分类任务，去更准确地区分是人类写的和 OpenAI 模型的输出。

Facebook 、微信和各类媒体网站，一直在打击假新闻和谣言上付出了很多努力， OpenAI 的这项研究明显是能提供帮助的，是否能以相关的方式检测这种模型输出，从而去对抗假新闻？

按理说，OpenAI 能在短时间内出个解决方案的，但他们没有。 Q

是否应该去注意平衡模型的负面案例和正面用例？

是。

通过发布具有积极应用的模型，比如医疗、安防、环保，很容易对社会运行的各个环节都产生贡献。

OpenAI 的另一个失败之初在于，他们的研究缺乏多样性。OpenAI 发布了的研究仅适用于英语和少数其他语言。但英语仅占全世界对话的 5％。对于句子中的单词顺序，标准化拼写以及「单词」如何用作机器学习功能的原子单位，英语的情况可能不适用于其他语言。

OpenAI 作为科研领域的先驱，也有责任尝试其他语言类型的研究，帮助更需要帮助的语言和地区。 Q

开源模型之前，数据要脱敏到什么程度？

建议脱敏到字段级别，最起码从字段级别开始评估。

比如我在 AWS 工作时负责的刚好是：命名实体识别服务，我就必须要考虑到：是否要将街道级地址识别为显式字段，以及是否将具体坐标映射到该地址。

这从本质上都是非常敏感的私人信息，尤其在被商业公司产品化的时候，应该考虑到。所以，在任何研究项目中都要考虑这一点：是否已经将关键数据进行脱敏？ Q

当别人都说可以开源时，我应该开源我的模型吗？

不，你应该有自己的判断力。

无论你是否同意 OpenAI 的决定，他们都是自己做出最后的决定，而不是盲目地听从网友的意见。

一个普通工程师，开源项目前要考虑什么？

原文：Robert Munro

编译：神经小姐姐

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

从颠覆到创新

长江商学院 / 中国友谊出版公司 / 49.00

互联网+时代的汹涌来临，一切我们所熟知的事物都在发生改变，商业模式的剧烈变化正在席卷各行各业，所有坚硬的壁垒都将消散，所有的企业都面临着商业模式的再探索和转型，而商业模式的探索、失败、进化，甚而再回到起点，杀死自己推倒重来，不断颠覆不断创新，不断涅槃不断重生，这不仅仅是这个时代新创公司的特征，也是今天互联网领域所有存活下来的巨头们的轨迹。本书通过11个典型的互联网企业商业模式转型案例，讲述......一起来看看《从颠覆到创新》这本书的介绍吧!

码农工具

MD5 加密

MD5 加密工具

一个普通工程师，开源项目前要考虑什么？

OpenAI 开源了，结果呢？

给普通工程师的硬核开源建议Q

是否要去考虑开源自己的模型？

如果模型全部来自公开数据集，我需要担心什么问题？

如何评估开源后的风险？

我应该相信媒体们所描述的开源的风险吗？

应该相信有关部门对开源风险的意见吗？

应该思考应对开源后负面用例的解决方案吗？

是否应该去注意平衡模型的负面案例和正面用例？

开源模型之前，数据要脱敏到什么程度？

当别人都说可以开源时，我应该开源我的模型吗？

从颠覆到创新

MD5 加密

html转js在线工具