逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

栏目: 编程工具 · 发布时间: 5年前

内容简介:逆天的语言模型GPT-2又有最新开源进展了!GPT-2,这个造假新闻编故事以假乱真,能完成阅读理解、常识推理、文字预测、文章总结等多种任务的AI模型,从诞生开始就引起大量关注。

铜灵 发自 凹非寺

量子位 出品 | 公众号 QbitAI

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

逆天的语言模型GPT-2又有最新开源进展了!

GPT-2,这个造假新闻编故事以假乱真,能完成阅读理解、常识推理、文字预测、文章总结等多种任务的AI模型,从诞生开始就引起大量关注。

但因一开始只放出了117M的小型预训练模型,OpenAI还被网友调侃为“ClosedAI”。OpenAI表示,不是不开源,而是时候未到。

刚刚,OpenAI宣布将其 345M的预训练模型 开源,外加其Transformer的 1.5B参数

这一次,你也可以将最强语言模型,用到自己的项目中了。

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

称霸各大语言建模任务

语言模型GPT-2在语言建模任务中,简直是逆天般的存在。

作为一个没有经过任何领域数据专门训练的模型,它的表现比那些专为特定领域打造的模型还要好,横扫各大语言建模任务。

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

GPT-2在不同语言建模任务上的测试结果(从左到右:数据集名称、指标类型、GPT-2测试结果、此前最好结果、人类水平)

一经问世就获得了Hinton等大牛的强推和关注。

简单来说,GPT-2就是基于Transformer架构的大规模模型。

GPT-2是GPT算法“进化版”,比GPT参数扩大10倍,达到了15亿个,数据量扩大10倍,使用了包含800万个网页的数据集,共有40GB。

这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

上图左部分,是研究中使用的Transformer架构以及训练目标。右边部分,是针对特定任务进行微调。将所有结构化输入转换为token序列,由预训练模型处理,然后经过线性+softmax层处理。

就GPT-2而言,它的训练目标很简单:根据所有给定文本中前面的单词,预测下一个单词。

几天前,在此架构基础上改进得到的模型MuseNet,也能预测一段音乐中下一个音符是什么了,还用贝多芬的曲风续写阿黛尔的Someone Like You,让莫扎特续写披头士。

不来了解一下?

让莫扎特“续写”披头士的音乐,OpenAI的新AI作曲能力强丨Demo可玩

传送门

最后,附上GitHub代码地址:

https://github.com/openai/gpt-2

GPT-2数据集地址:

https://github.com/openai/gpt-2-output-dataset

OpenAI介绍主页:

https://openai.com/blog/better-language-models/#update

— 完 —

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

量子位  QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


以上所述就是小编给大家介绍的《逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

科技投资新时代:TMT投资方法、趋势与热点聚焦

科技投资新时代:TMT投资方法、趋势与热点聚焦

马军、宋辉、段迎晟 / 人民邮电出版社 / 2018-3 / 69.00

中国 TMT 行业(科技、媒体及通信)起步较晚但充满朝气。2017 年,TMT 板块的IPO 数量占到了总数的四分之一;对于投资者来说,投资 TMT 的收益非常可观。那么,TMT 的投资趋势如何? TMT 行业又有哪些投资热点? 本书立足于 TMT 投资现状,在介绍了 TMT 投资的基本概念之后,作者详细讲述了TMT 投资的基本研究方法、分析视角、整体行情及趋势分析,同时从行业视角分析了包括......一起来看看 《科技投资新时代:TMT投资方法、趋势与热点聚焦》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试