自然语言处理 --- L01

栏目: 编程工具 · 发布时间: 5年前

基本概念

  • 自然语言理解, NLU, Understanding

    形式化(标准化)的数学符号、模型, 模拟人的语言能力

  • 计算语言学, Computational Linguistics

    数学模型

  • 自然语言处理, NLP

    更宽泛的概念。

    利用计算机, 对人类的书面和口头形式的自然语言的信息进行处理和加工

  • 语言

    一个符号系统, 意义(知识) + 规则(语法)

  • 第一系统 --- 语音系统 Sound System

    第二系统 --- 文字系统(书写系统) Writing System

  • 口头语和书面语
  • 语言单位

    单个字符, 词(word), 短语(Phrase), 句子(Sentence), 语段, 篇章(Utterence)

  • 自然语言的作用

    思维的载体, 交流的工具

    人类历史以语言文字形式记载和流传的只是占总量的 80% 以上, 图表占的比例很小

  • 基本问题

    如何让计算机具有语言处理的能力,如何让计算机实现自动的或人机互助的语言处理功能

    如何利用计算机处理海量的语言信息,自动处理,知识挖掘,有效利用

  • 学科特点 --- 交叉性学科

    语言学:形式语言文法,词典、语料库(标注、分词等)、知识库

    数学:概率论、统计学、信息论,自动机、Markov模型、HMM模型

    计算机科学:自动机器学习,自动人工智能,状态空间的图搜索算法

    心理语言学:研究人类理解自然语言的机制

  • 语言学基本知识:语言研究的基本范畴

例子

  • 英汉翻译

    Miss Smith put two books on this table

  • 形态分析

    词形还原, Lemmatization, 变成原型

    词汇符号化, Tokenization, 相当于中文分词

    Miss
    Smith
    put

    语法分析, Syntac, 主谓宾, 语音合成, 读的时候的节奏变化

    [Miss Smith] [put] [two books] [on the table]

    词汇转换(单词转换)

    短语转换(语序转换)

    优化

自然语言处理研究的不同层次

  • 应用系统(数字图书馆,电子商务,电子政务,自助服务,语言学习)
  • 应用技术研究(自动问答,机器翻译,信息检索,文本挖掘,自动校对,信息抽取)
  • 基础研究(分词,标注,切分)
  • 语言学知识库建设

自然语言处理的应用

  • 基于文本的应用

    关键词(同近义词,模糊,自动理解自然语言)搜索引擎

    翻译

    自动文摘,消息抽取

  • 基于对话的应用:

    问答系统

    教学系统

问题

  • 机器能处理自然语言,但机器能理解自然语言吗
  • 结构主义,理性主义:理解语言的步骤,但人自己可能也说不清自己理解语言的步骤

    经验主义,功能主义:机器的表现与人相同

    图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能

困难

  • 歧义 ambiguity

以上所述就是小编给大家介绍的《自然语言处理 --- L01》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

网飞传奇

网飞传奇

[美]吉娜·基廷 / 谭永乐 / 中信出版社 / 2014-1-1 / 42

飞的历史充满了传奇色彩,它的崛起伴随着复杂斗争、幸运转折、个人背叛……它自身的历史比它出租的那些电影还要更富有戏剧性。网飞在1997年建立,而建立的原因仅仅是因为创始人伦道夫和哈斯廷斯没有按时归还租借的DVD,还要缴纳因此而产生的滞纳金。 1999年,网飞公司摒弃了百视达的“每片付租”模式,转而采用了一种订阅模式:用户只需要支付固定费用,就能尽情租片观赏,免去了到期还片日、滞纳金、运费和手续......一起来看看 《网飞传奇》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具