OpenAI 发布了两个新的神经网络:CLIP 和 DALL·E。它们将 NLP(自然语言识别)与 图像识别结合在一起,对日常生活中的图像和语言有了更好的理解。
此前,GPT-3 的输出可能会看上去与实际脱节,让人感觉莫名其妙,这是因为它确实不知道自己在说什么。因此,OpenAI 和其它地方的研究者试图将图像与文本结合起来,让 AI 更好地理解人类日常事物的概念。CLIP 和 DALL·E 试图从两个不同的方向解决这一问题。
CLIP,“另类”的图像识别
目前,大多数模型学习从策划好的数据集的带标签的示例中识别图像,而 CLIP 则是学习从互联网获取的图像及其描述中识别图像——即通过一段描述而不是“香蕉”、“苹果”这样的单词标签来认识图像。比如,大多数图像识别系统被训练用来识别监控视频中的人脸或者卫星图像中的建筑,而 CLIP 则被训练于在 32768 个随机描述中找出与给定图像相匹配的一段描述。为了做到这一点,CLIP 学习将大量的对象与它们的名字和描述联系起来,并由此可以识别训练集以外的对象。
DALL·E,从描述生成图像
DALL·E 是 GTP-3 的120亿参数版本,与 CLIP 不同的是,DALL·E 被训练于从一段描述中生成图像,以表示自然语言所表达的概念。比如“ an illustration of a baby daikon radish in a tutu walking a dog ”、“ an armchair in the shape of an avocado ”、“ a store front that has the word ‘openai’ written on it ”。
实验中,研究员从多个角度对其进行测试,包括描述不同属性的同一物体、描述多个物体的组合、描述视角或渲染模式(3D 等)、描述可视化内部和外部结构、描述上下文细节、描述不相关概念的结合等,DALL·E 的表现令人惊喜,尽管好坏参半,比如其能够根据描述以各种不同的样式渲染同一场景,并且可以根据一天中的季节或季节来适应光照,阴影和环境,但是描述的文本越长,成功率越低,不过重复强调关键文本会使成功率提高。
尽管两个模型尚有缺陷,但“ 未来将由这样的系统组成 ”,OpenAI 首席科学家 Ilya Sutskever 说道,“ 并且这两个模型都是朝着该系统前进的一步 ”。
更多详细内容:
猜你喜欢: