人工智能的浪潮遍及各行各业,随着自然语言处理技术的发展,计算机对文字的处理也进展到了一个新的层次,什么是文本智能?怎样在产品中找到人工智能可赋能的场景?当ai遇上产品设计,又将碰撞出怎样的火花?
什么是文本智能
文本智能通俗来讲,是计算机像人类一样理解自然语言。
“冬天,能穿多少穿多少。夏天,能穿多少穿多少。”
“中国足球队,谁都打不过。中国乒乓球队,谁都打不过”。
人类看一眼就知道什么意思,对计算机来说则困难重重。因为 人的表达方式千变万化,短词汇可以传达非常宽泛的语义信息。
现在的文本智能处在什么层面?
人工智能的分类层次, 第一层“运算智能”。 计算是计算机的强项,通过分布式系统及高性能的CPU、GPU可以很好解决。
第二层“感知智能”。 感知是在更多听觉、视觉、触觉等方面的创新。
文本智能处于 第三层:认知智能。 研究 如何进行自然语言理解、知识的构建和逻辑推理。
第四层“创建智能”,是人工智能行业终极目标。
文本也可以分成两种类型,一种是 书面文本 ,承载的形式为网页、word、txt或pdf。 另外一种则是 日常交流的口语形式 。达观专注于第一种。
一份简历、一份合同、一份上市公司的债券募集说明书、一条评论都可以算书面文本。
面对一篇文本, 我们能做什么呢?
一,拆解。像庖丁解牛一样把文档结构化。
简历的姓名、照片、工作经历、教育背景;合同中交易的甲乙方、合同标的物、付款方式、条款;新闻的标题、摘要、来源、正文、关键人物、事件,组织机构名称,都是对文本拆解后抽取到的信息。
抽取是文本处理中最重要和实用的技术。抽取出合同中的“付款方式”之后,业务方才能够去进一步审核“付款方式”是否符合法律法规。
二,联接。对多个文本进行庖丁解牛式的拆解,相关知识就能联接形成一个巨大的知识网。
对标到知识图谱, 新闻中的人、事、物、关系,公司年报中的出现的公司名称及关系 , 都可以作为文本智能处理的大脑和背景知识,在知识网络上进行逻辑推理和判断。
三,生成。生成是学术界研究的热点,在当前阶段是非常困难的事情。腾讯的Dreamwriter,今日头条的xiaomingbot都在尝试用机器创作短新闻。
接下来我们具体看一些文本智能的例子。
根据一篇新闻资讯, 生成 不同长度的 摘要 ,主要有 两种 技术手段: 抽取式和生成式。
给定一个用户评论,提取出标签信息和观点,属于一个 短文本处理 。
文本分类和情感识别: 在文本质量管控和舆情分析方面使用较多。
文本审核也是分类的一种,涉黄涉政及判断是否是广告,是每一个做互联网产品的公司比较头疼的事。
下面是金融行业的债券募集说明书。
这样一个文档中,行业研究人员比较关注公司高管信息,比如姓名、公司职位。在债券募集说明书中收购标的是哪些,包括资产、标的业务、标的所在行业是否涉外、交易对手是否涉外、各类财务指标等。
一般债券募集说明书从100到500页不等, 让人从这么长的文档中找到这些关键信息,非常容易出错。
在公开的金融资讯网站上,债券募集说明书非常多, 一个金融从业人员不可能在短时间内把每篇文章内的信息都抽取出来。
所以在整个领域来说,文本智能处理出现了非常大的机会。这也受益于算法的进步,特别是 深度神经网络从图片识别领域到文本处理的迁移 。
促成文本智能处理飞速发展的原因很多。
最近Google 的bert模型刷遍AI界朋友圈: NLP历史突破,谷歌BERT模型狂破11项记录,全面超越人类 。 算法层面一直在不断取得很大的创新和进步是主要因素。
第二因素是 计算能力, 如分布式系统,GPU等应用。
第三因素是语料库的积累, 互联网行业,可以通过多种手段迅速积累语料库,传统企业也有资料积累,但量级无法与互联网比。
文本智能处理的需求遍及各行各业。 只要存在文字处理工作的行业,都有文本智能处理的需求, 金融、法律、政府行业,媒体、互联网,大型企业等。
设计思维和机器学习
掌握AI算法和基于AI算法设计产品之间的距离是非常大的,如同从火药到火药枪、从铀到核炸弹、从硝化甘油到C4的区别。
怎样才能基于这个AI算法设计产品呢?
产品经理的思维是从 用户、场景和需求 三要素出发。
要给客户解决什么问题、目标客户如何刻画、客户在什么样的场景下会使用我们的产品、怎么用一系列问题,需要产品系统的思考。
设计思维的六个步骤重点包括: 启发、构思和实施。
机器学习 的流程,是 对要解决的问题定义好后,对数据加工处理,提取特征,进行算法选择,从而确定可使用的模型。
当这些模型满足上线要求或业务要求以后,我们把模型放到线上系统中。当新接受到的数据进行同样的处理后,用训练出来的模型来判断是否属于垃圾邮件。
算法接受不同的数据可以训练出不同的模型。整个过程是 迭代优化 ,因为 数据的分布 和 蕴含的特征 可能随着业务的不断发展在产生改变。
设计思维是以 用户 为中心,强调 敏捷开发、快速迭代。
机器学习 是以 数据 为中心,强调 数据+模型闭环驱动。
两者怎么样进行深度的融合,是在人工智能时代下对产品经理 能力模型 的要求。
这两年AI的宣传,特别是AlphaGO的普及作用,我们感受到每一个行业都会被人工智能技术所影响,任何职业都会受到影响。
但AI到了无所不能的地步吗?
显然不是。
AI对行业或职业影响的有多大,很大程度上,是取决于 这个领域技术的成熟度和边界在哪。
比如文本处理领域,针对文本处理技术评估可以分为3类: 可用 、基本可用、难以应用。
达到人类水准的有垃圾内容的检测、主题分类、文本相似度分析、对词性进行标注。
基本可用但仍存在缺陷的,比如关键短语生成、实体链接、机器翻译、语义消歧。
难以应用,包括多轮对话、QA问答、内容改写等。
当产品经理在设计一个基于文本智能的产品时,要考虑这项技术处于什么类别。 类别决定技术用到最真实场景时、场景对准确度的要求。
例如自动驾驶或无人驾驶,场景 容错率是零 ,因为轻则车毁,重则人亡。
保守一点讲,我们还处于AI的初级阶段, AI的常识逻辑和逻辑推理能力都还很弱。 但在 日常生活中人类已经享受到了AI带来的价值。
如何找到AI赋能的场景
那么,该如何找到AI赋能的场景,让算法专家、行业专家和应用开发专家三种角色的合作使人工智能落地呢?
找到这个场景的前提是需要思考, 运用AI产品和解决方案的本质什么。
首先,应用可以分为两类: 互联网行业应用 和 企业级应用 。
在互联网行业应用,无论是搜索、推荐系统、广告, 提升的是过程中 信息传递的效率。 在企业级应用上,主要是 提升生产效率和创造新价值。
提到AI产品和解决方案,当我们将它们服务于我们 企业级场景 的时候,它的核心是在 提升生产效率。
产品需要找到在当前的业务流程中,生产效率 到底出现什么问题 ,或 哪个环节 希望借助AI技术进行生产效率的提升、节省人力。
这些可以分四个步骤做,算法开发人员也是站在这四步实现代码:
1)流程拆解
对当前的工作流程或业务场景进行详细拆解,诊断阻碍生产效率的最大问题, 对核心问题进行拆解。
2)数据评估
如果想解决问题,公司的哪些数据是跟这个问题相关的; 有没有数据 ;如果有数据,这些 数据的质量怎样 ;缺不缺数据,如果缺数据,这部分数据 可不可以通过外部采购,或跟其他的应用、产品进行连接后获得。 这些都是在数据评估阶段要考虑的问题。
3)方案设计
方案设计是 针对当前的数据现状去完善基础数据,选择可能存在的AI算法是什么。 比如进行垃圾分类,有很多分类算法可以采纳:贝叶斯模型、SVM逻辑回归。
第三点比较重要,很多时候人不知道算法的效果怎样,如果 工具 能够帮助我们进行快速的测试,会很快的验证和优化方案。
4)有机整合
当设计好解决方案以后,准确率是可接受的,这时考虑 这项服务或应用怎么跟现有的系统进行结合。
大体来看有两种方式,一种方式 基于AI,做独立的产品 ,在这个产品中有这项功能;第二种是一种 以API接口的方式和业务进行打通。 系统上线以后, 怎么做模型升级、怎么做维护 ,也是我们面临的挑战的问题。
概括来讲, 想找到AI能够赋能或落地的场景,需要对流程进行拆解,然后评估数据,进行AI方案的设计,最后和系统进行有机整合。
如果对差旅的报销流程进行梳理,共有五个环节:
第一,整理出差待报销的发票。第二,填写报销申请表。第三,上传递交的票据 ,第四,财务部门进行审核,第五,最终审核通过。
对流程进行拆解, 第一步,整理出差待报销的发票。 要先根据 票据的类型 进行分类,分好类分别计算各个票据的金额,交通、住宿,进行汇总。第四个环节,财务部门 需 要核对申请表上的金额与提交的纸质票据的原件是否一致。
当对流程进行拆分以后,就可以进行AI技术的评估。比如票据类型分类,能不能通过OCR技术。
当对进行各项金额计算时,能否通过 文本关键信息提取技术 把金额自动提取出来,进行汇总计算。填写报销申请表时,能否 根据数据接口的方式自动传达财务部门的审核系统中 。同样,通过文本内容关键信息提取技术,把提取出来的数字和用户上传过来的数字进行复核,来判断是否通过。
这几项AI技术帮助赋能,在这个环节中, 我们需要哪些数据?
第一环节需要报销的原件,第四个环节既需要原件,又需要申请表。通过这样的方式, 我们找到了AI落地的场景点, 并明白了技术在里面可以做到什么程度,同时 让业务方也了解到了这项技术确实是可以落地的。
达观数据做的 智能文本审核系统 ,也是按照同样的方式,对从 合同起草、初步审阅、迭代修改、合同履行、合同归档 几个步骤进行详细的拆解。
通过拆解可以发现 三个场景 充分利用 文本智能技术 :
第一,合同的差异比对。合同有不同的版本,且不同的版本是内部不同的人配合协作的,有时还涉及到外部的咨询公司。
第二,合同条款的读取。当我们进行审核时,需要公司的法务人员对合同进行阅读,找出需要审核的条款进行法律法规的判定。
第三,合同审核。
找到这三个点以后,明确了提供AI产品价值是 提升效率,帮助法务部门控制风险。
当我们找到可以AI赋能的场景后,我们需要 遵循什么样的原则去设计产品和解决方案呢?
AI产品设计原则
我们先来看下 传统软件设计 和 AI驱动软件 的差别。
传统软件设计,设计过程注重的 因果、逻辑。 设计一个OA系统,要考虑员工办公流程、每个流程要达到的目标是什么、功能实现最短路径。如果有输入不符合预期时,传统软件产品时,开发工程师比较容易重现BUG和解决问题。
而 AI驱动的软件 ,重点需要考虑的是 结果不确定性、逼近优化目标。
比如合同条款读取,通过历史的合同数据,已经能够训练出文本智能模型,可以对某些字段进行抽取,假对某个字段的抽取准确率是98%,在历史合同数据中这个非常高的准确率了,站在业务方来评估,也基本能够满足上线要求。但当系统上线以后,对新的一份合同,也许没有抽取出来。又来一份新的合同,也许就抽取正确了。
对AI算法来说,准确率98%是站在数据集的角度考虑的, 但真正把模型或产品应用到业务系统中,业务人员面对的是一份一份的数据。
另外, 优化目标是个逼近的过程, 过程是上下起伏的,总效果是逼近目标的。 就像人喝醉酒后回家一样,摇摇晃晃,有时多走了几步,但是还是往家的方向走。
可这种情况,对产品的使用者怎么办?
使用者知道产品在优化,但使用过程中还是会出现错误。优化的过程有起伏,使用者被告知针对目前的问题,上了一个新的版本,新版本的准确率由98%提升到99%,可在真正使用时,可能发现连续3份合同抽取错误了。 这种情况下业务方很难接受,因为他们对AI算法本身不是太理解。 作为产品经理,这是一个需要解决的问题。
对AI产品,大家总是期望主动表现出智能型, 对于这种需求,UI设计和功能设计都是可以起到作用的。 对于功能性,有4点比较重要。
第一,怎么设计“消除不确定性”。AI算法的流程和处理方式就决定了它存在的不确定性。产品要通过各种方式来摊销或消除不确定性,或存在不确定性时有合适的处理方式。
第二,“注重学习反馈”。算法的智能很大一部分来自数据,也来自用户的反馈。当新的数据源源不断进来后,通过我们产品的界面设计纠正错误后, 产品怎么接受这种反馈,实现自我演化。
第三,“使用人机交互”。 用户的反馈通过怎么样的交互方式来体现?可以让用户先试用一段时间,基于这段时间出一个报表,在报表把系统处理的各项错误罗列出来,用户通过离线方式进行批量的修改确认,把修改的结果导入到系统中重新训练模型,这是一种人机交互。 能否在线实时处理掉,也是一个非常重要的问题。 有时产品认为用户通过人机交互方式进行了反馈,也许因为产品功能设计得不够友好,用户误点了。 要区分哪些真正有价值的反馈,哪些是需要消除的噪音。
第四,“注重检测错误”。准确率不是100%的情况下,线上系统的错误处理和运维是非常具有挑战的。尤其是 当线上数据具备高度机密性 的情况下,线上系统处理的数据 不可能导出到测试环境中让AI人员去研究复现 时,怎么办?
理想的结果是交付一个AI产品,可以不断的 优化、迭代,越来越聪明 ,成为一个动态的AI系统,而不是静态的。
AI也重新定义了 产品设计 和 开发流程。
图的上面跟机器学习算法相关, 识别问题、获取数据,进行模型训练、模型管理。模型之间有不断的版本迭代,我们要进行模型的部署,上线以后模型要去适应新数据的变化。
下面是站在开发角度,怎样去进行 需求建模、架构设计、软件设计、怎样对AI产品进行开发测试、上线以后的维护。
当系统上线后,用户就是用来处理数据的,新的数据源源不断,可能会出错,系统会产生行为的异常,用户看到错误时会 跟系统进行人机交互,把自己的反馈提出来。
有时用户有自己的专业知识、行业知识, 把自己的行业知识传授给AI系统,让它更加聪明。 除了自我演化外,也通过接收外部信息的方式增强自己的智能。如果把这种视角加进来,可以 让AI产品站在宏观角度把握各环节,从而指导我们设计出更好的产品。
那么达观的合同智能审核系统是包含哪些功能组件来逐步达成目标的?
右边是我们的功能图,大概有 8项功能、34个子功能 ,左边对功能进行了2个大的分类,上面是做 信息抽取、版本比对、风险审核、纠错、合同分类、合同知识的搜索和推荐。 下面还有 强化的机器学习平台、模型自主训练。
AI产品这两种不同类型的功能结合在一起,有了下面这部分,技术提供方或客户IT团队, 都 可以借助这个平台让AI系统进行动态演化。
举两个例子展示 怎样通过产品进行合同条款的抽取和进行规则审核。
场景一是合同关键信息的抽取。
共分为5步,前2步是预先做好的。根据客户已有的历史合同数据去训练AI模型,让AI模型识别不同类型的合同,就不同类型合同中的关键要素进行自动抽取,做好这2步后预置到产品平台中去。
对使用者来说,是三步完成: 上传到合同文档、机器进行自动关键词提取、提取结果呈现。 形成这样一个 关键信息抽取的报告, 法务人员可以对报告一目了然。
场景二是合同风险进行审核。
前两步也是预置到产品中,针对各个不同的合同类型,根据业务方设计合同审核项, 对每个合同类型的风险点都配置好,机器模型可以自主的进行学习和训练。
业务方上传合同文档,机器可以进行自动处理,并给出些建议。
审核结果中包含针对这个合同, 有哪些是必改问题、有哪些是缺失条款、有哪些是建议优化的, 都可以满足。
这是我们产品的全景图,展示了AI的几个不可缺失的关键要素, 只有保证这几个要素后,提供的产品时才能够消除由AI算法带来的不确定性。
客户是不可能为不确定性买单的。如果交付了一个产品,客户问准确率是多少,答“看数据情况吧”,客户又问系统上线使用时撞户率有多高,答“这个我也不清楚,需要新的线上数据判断”,任何一个客户都不会为不确定性的回答买单。
最后一部分,如何进行产品价值的评估。
如何进行产品价值评估?
针对上面的合同智能处理,我们了解到:
对不同的合同,原本通过 人工阅读 的方式进行审核, 处理时间基本是在小时级。 引入智能合同审阅平台 以后,整个过程从待审阅合同、智能合同审阅到人工复查, 从小时级变成分钟级。
从价值来说, 一,提升效率、降低成本。 二,降低风险。三,把长期非结构化文档的管理问题很好的管理起来。
合同评估对于AI产品有两个层面:
一,算法层面的评估。更多的是面向AI算法和研发人员,比如准确率、召回率,F1值。
机器翻译、智能客服、多轮对话、搜索、推荐、文本抽取等在算法层面都有不同的指标,对业务方很难讲明白准确率是多少,用户很难把准确率和它的业务价值映射起来。
评价的维度也非常多,取决于业务方 怎么看待这个产品以及通过这个产品达到什么目标。
有时客户的期望是 通过AI的产品提升人员的工作效率、降低出错。 有的客户 使用AI的产品专注在创新。
不管做to C还是to B都是围绕用户进行服务的,有一个经典的模型叫 “AARRR”: 怎么获取用户、激活、留存、商业变现、用户帮助评估。
在这个场景实现AI落地,针对这几个不同的环节,到底带来哪些业务价值上的提升: 是新的获客数量增加了、转化率提升了,还是某项产品的营业额收入增加了。
一,节省人力。二,创造新价值。这是我们希望AI产品能够达到的理想目标。
以上是我想给大家分享的多年做AI产品设计和项目交付的经验,谢谢大家!
作者:贾学锋达观数据副总裁
负责AI解决方案及产品设计。复旦大学计算机系硕士毕业,拥有10+年研发及AI产品设计经验。复旦毕业后工作于SAP中国研究院担任Design&NewApplication部门的高级研发经理,带领数据创新团队围绕多个行业构建了多个新一代企业级智能产品。
后加入阿里巴巴,担任大数据创新产品负责人,参与“移动互联网+零售”新商业模式,基于阿里的海量数据构建面向实体商业的营销平台。
在加入达观前,在万达网络科技集团担任高级管理职务负责集团资源的商业化,管理商业化产品和技术团队,以消费者为核心,利用数据和人工智能技术实现全场景营销平台。
达观数据是中国领先的文本智能处理企业,利用先进的文字语义自动分析技术,提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。
理论 达观数据 贾学锋 NLP 文本分类 知识图谱 深度神经网络 图像识别 机器学习 机器翻译 自动驾驶 人机交互 推荐系统
相关数据
Artificial Intelligence
在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)
来源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Deep neural network
深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
来源:机器之心 Techopedia
Information extraction
信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。
来源:机器之心
Knowledge graph
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
来源:机器之心
Logic
人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。
来源:机器之心
Human-computer interaction
人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。
来源: 维基百科
Machine Learning
机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。
来源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
Mapping
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。
来源: Wikipedia
Logistic Regression (function)
逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。
来源: Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 维基百科
Natural language processing
自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
来源: 维基百科
Machine translation
机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。
来源:机器之心
Recommender system
推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。
来源:机器之心
self-driving
从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。
来源: 机器之心
perception
知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。
来源: 维基百科
text classification
该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
来源:机器之心
Datagrand
达观数据成立于2015年,是中国领先的文本智能处理技术服务商,是一家专注于企业知识管理和文字语义理解的国家高新技术企业。达观数据为企业提供完善的文本挖掘、知识图谱、搜索引擎和个性化推荐等大数据服务,是国内唯一一家将自动语义分析技术应用于企业数据化运营的人工智能公司。
Bytedance
“今日头条”是一款基于数据挖掘技术的个性化推荐引擎产品,它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品之一。
BERT
BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。
来源: arXiv论文
Accuracy
分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数
Noise
噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。
来源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 推荐系统的产品设计
- 产品设计中的推荐引擎介绍
- 数据分析产品设计中,有哪些坑需要注意?
- 数据分析产品设计中,有哪些坑需要注意(二)
- 白话大数据:大数据与机器学习在产品设计中的应用
- [译] 为复杂产品制定设计规范
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
An Introduction to Probability Theory and Its Applications
William Feller / Wiley / 1991-1-1 / USD 120.00
Major changes in this edition include the substitution of probabilistic arguments for combinatorial artifices, and the addition of new sections on branching processes, Markov chains, and the De Moivre......一起来看看 《An Introduction to Probability Theory and Its Applications》 这本书的介绍吧!