Technology-机器学习-Deep NLP简介

栏目: 数据库 · 发布时间: 7年前

内容简介:Technology-机器学习-Deep NLP简介

CS224N 课程学习笔记。 NLP with DL (Natural Language Processing with Deep Learning) 简介。

NLP

定义

NLP 是一个交叉的领域,涉及计算机科学、人工智能以及语言学。

目标

NLP 目标是让计算机可以处理(“理解”)自然语言,从而执行一些有用的任务,例如预约事件、购买物品以及问答,Siri,Google Assistant,Facebook M,Cortana 等均在执行这样的任务。

然而,完全的理解以及呈现语言的含义(甚至去定义它),是一件非常难的事情。完美的语言理解是一个 “AI-complete” 问题。

层级

Technology-机器学习-Deep NLP简介

应用

NLP 包含了从简单到复杂的使用场景:

  • 拼写检查,关键词检索,同义词查找;
  • 从网站中检索出信息,例如产品的价格,日期,位置,人名或者公司名等;
  • 分类:学校文本阅读分级,长文本的正负情绪判断;
  • 机器翻译;
  • 口语对话系统;
  • 复杂回答系统。

NLP 在业界被用于:

  • 检索(写作和口语);
  • 在线广告匹配;
  • 自动/协作翻译;
  • 市场或者金融的情绪分析;
  • 语音识别;
  • 对话机器人:智能客服,控制设备以及预订物品。

人类语言

定义

人类语言是一门符号化的,分类的信号(signaling)系统。

人类语言是一门专门用于传达说话或者文字含义的系统,其不仅仅是环境的信号,也是一种特意的交流方式,甚至连小孩都能很快掌握。

例如:

  • 火箭 = :rocket:,小提琴 = :violin:;
  • 有一些比较小的异常表达,例如 “I looooove it.” 和 “Whoomppaaa”;
  • 依赖于信号;
  • 符号(Symbols)并只是逻辑或者典型 AI 的产物。

符号

一门语言的分类符号可以被编码成不同的交互方式,例如声音,手势和图片。

切换不同的编码方式时,符号的意义是不变的。

Technology-机器学习-Deep NLP简介

人类语言是一个符号化,分类的信号系统,人类的大脑一直在运转,因此,这些语言符号通过声音或者视觉的持续信号的方式被传输。

人类语言的巨大词库,对于词汇的符号编码,形成了机器学习的一个难题 - 信息的缺乏(Sparisity)

Technology-机器学习-Deep NLP简介

Deep Learning

定义

深度学习(Deep Learning)是机器学习的一个子领域。

大多数的机器学习方法之所以能效果良好,是因为已经人为定义好了呈现的方式以及输入的元素。例如,定义好了查找位置、公司名等名称实体的输入元素。

Technology-机器学习-Deep NLP简介

因此,机器学习变成了只是单纯的调优参数,来获得一个更好的预测效果。

Technology-机器学习-Deep NLP简介

表征学习指的是我们只需要给予计算机原始信号(视觉或者语言信号),计算机就能自动学习,创建良好的中间层表征。

深度学习是表征学习(Representation Learning)的一部分。深度学习算法尝试去学习多个层次的表征以及输出。深度学习并不等同于使用神经网络,虽然现在基本都是使用神经网络。

Technology-机器学习-Deep NLP简介

原因

从 2010 年开始,深度学习开始比其他机器学习方法更突出的原因在于:

  • 大量的可供训练的数据;
  • 更快的机器以及多核 CPU/GPU;
  • 新的模型,算法,创意。

语音

深度学习的第一个成功的案例在于基于大数据集合的语音识别。2010年,基于上下文的预先训练的深度学习神经网络将识别的错误率降低了将近 30% 。

Technology-机器学习-Deep NLP简介

第二个成功的案例在于2012年,ImageNet 上通过深度卷积神经网络的分类方法,将错误率降低了将近三分之一。

Technology-机器学习-Deep NLP简介

Deep NLP

可视化(Visualization)

单词的含义作为一个神经向量,例如 “expect” 可以转化为:

Technology-机器学习-Deep NLP简介

通过向量间的聚类,可以将近义词归类到一起。

词态(Morphology)

传统方法的单词表示形式是由前缀,词干,后缀构成的,例如:

Technology-机器学习-Deep NLP简介

而 DL 的表示形式是,将每次词态表示成一个向量,并通过神经网络将其组合起来。

Technology-机器学习-Deep NLP简介

分词(Parsing)

神经网络可以准确地判断一个句子的结构,从而进行理解。

Technology-机器学习-Deep NLP简介

语义(Semantics)

传统的方法是 λ 演算(Lambda calculus):通过手工定义不同单词的意义的函数,通过逻辑代数函数将单词的含义组合在一起,没有相似性和语言的歧义的概念:

Technology-机器学习-Deep NLP简介

而 DL 是将每个单词,词组表示成向量,并通过神经网络将其组合起来。

Technology-机器学习-Deep NLP简介

例如,对于以下句子,传统方式是通过字典匹配的方式(忽略词序)来判断其情绪,而深度学习模型可以从全局的角度进行理解,例如递归神经网络(RecursiveNN):

Technology-机器学习-Deep NLP简介

应用

Google Inbox app 的自动回复功能是一个简单,成功的应用,其使用的是神经语言模型(Neural Language Models)的一个通用技术。

Technology-机器学习-Deep NLP简介

机器翻译是另一个典型应用,传统的机器翻译系统及其复杂:

Technology-机器学习-Deep NLP简介

而神经机器翻译系统将句子都映射成向量:

Technology-机器学习-Deep NLP简介


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

触点管理

触点管理

[德] 安妮·M·许勒尔(Anne M. Schuller) / 于嵩楠 / 中国人民大学出版社 / 2015-12-1 / 49.00元

我们所处的时代正经历着巨大的变革,变得越来越数字化、复杂化和社会化。互联网浪潮猛烈冲击着传统商业世界,数字原住民队伍不断壮大,改变了企业的内外生态环境;金字塔式结构正在瓦解,组织变得越来越网络化和扁平化;员工接管了企业的话语权,我们比任何时期都更需要员工的忠诚,并期望他们表现出更加自主的创造力和协作精神。 在数字化商业世界里,公司内部员工与组织和领导之间接触点的数量直线上升,任何真相都无法对......一起来看看 《触点管理》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具