未来在知识图谱领域还会面临哪些挑战?

栏目: 数据库 · 发布时间: 5年前

内容简介:现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。同时,我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。可以看到,在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,有很多重要的开放性问题亟待学术界和产业界协力解决。

现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。同时,我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。

根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。

可以看到,在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,有很多重要的开放性问题亟待学术界和产业界协力解决。

我们认为,未来知识图谱研究有以下几个重要挑战:

  • 知识类型与表示

知识图谱主要采用(实体1,关系,实体2)三元组的形式来表示知识,这种方法可以较好的表示更多事实性知识。然而,人类知识类型丰富多样,面对很多复杂知识,三元组就束手无策了。

例如,人们的购物记录信息,新闻事件等,包含大量实体及其之间的复杂关系,更不用说人类大量的涉及主观感受、主观情感和模糊的知识了。有很多学者针对不同场景设计了不同的知识表示方法。

知识表示是知识图谱构建与应用的基础,如何合理设计表示方案,更好地涵盖人类不同类型的知识,是知识图谱的重要研究问题。最近认知领域关于人类知识类型的探索也许会对知识表示研究有一定启发作用。

  • 知识获取

如何从互联网大数据萃取知识,是构建知识图谱的重要问题。目前已经提出各种知识获取方案,并已经成功抽取出大量有用的知识。但在抽取知识的准确率、准确率和效率方面,都仍不尽如人意,有极大的提升空间。

  • 知识融合

从不同来源数据中抽取的知识可能存在大量噪声和冗余,或者使用了不同的语言。如何将这些知识有机融合起来,建立更大规模的知识图谱,是实现大数据智能的必由之路。

  • 知识应用

目前大规模知识图谱的应用场景和方式比较有限,如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法。

这既需要丰富的知识图谱技术积累,也需要对人类需求的敏锐感知,找到合适的应用之道。

整体而言,知识图谱领域的发展将会呈现以下趋势:

  • 特色化

构建大规模知识图谱多基于Web信息、知识库:国外以Web开放信息为主、结构化知识库为辅快速构建大规模、跨领域知识图谱,如Google 基于Web开放资源、知识库(维基百科、Freebase等)采集信息并构建知识图谱;国内早期采用该类方法构建并通过增加中文特性扩充语义范畴、满足用户需求。

但限于中英文信息处理差异性,当前中文知识图谱构建多基于中文知识百科整合Web开放信息构建特色垂直型中文百科知识图谱及其应用。

  • 开放化

大规模知识图谱多依赖开放域数据((半)结构化数据)抽取知识(如Freebase,CN-DBPedia)并基于Web传播但当前开放度较低(尤其是商用知识图谱),不利于知识图谱构建、垂直应用落地,与其开放、互联初衷相悖。

新近出现的开放知识图谱社区(Open KG)制定协议规范(遵循商业规则、知识产权、数据开放许可协议等),通过开源软件方式在保障各方权益前提下开放知识图谱以实现整体利益最大化:基于关联数据技术实现多知识图谱关联,基于知识图谱链接封闭域数据与开放域数据(有效弥补封闭域数据知识不完全缺陷),提供API方便用户访问,以发现、共享知识并增加其价值。

  • 智能化

为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)融合以提升应用智能性:中文知识图谱个性化推荐系统利用大规模知识图谱中概念、实体间超链关系度量任意词条间语义关联并结合显式语义分析模型实现用户与项目(用两组标签分别描述)间精准推荐;表示事件逻辑关系的事理图谱辅助知识图谱定位、拓展事态进程并可用于智能推荐、常识推理等。

工业界基于大数据、知识图谱、人工智能、机器学习等技术构建机器智脑,通过知识规则或深度学习模型积累知识、经验以模拟、抽象人类智慧,提升商业应用可行性及机器智能性。

基于分析,我们用Trend analysis分析知识图谱领域内的研究热点。通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题有:

  • conceptual graph

  • parallel algorithm

  • knowledgerep resentation

  • grapht heory

  • knowledge base

未来在知识图谱领域还会面临哪些挑战?

知识图谱领域的热点趋势分析

根据Trend analysis的分析结果我们可以发现,conceptual graph是当前的热门话题之一,20世纪90年代开始其研究热度始终保持在Top 1,论文发表数量也远超其他研究热点,之后话题热度虽然经历了一定的变化,但目前的话题热度也较高。

从Trend analysis我们还可以看到,知识表示也在该领域的热点话题之列。知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。知识表示学习则主要是面向知识图谱中的实体和关系进行表示学习。

使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。知识表示的代表模型有距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。

蒙彼利埃大学的Marie-Laure Mugnier教授是该领域的代表学者,她于1992年发表的“Extensions of simple conceptualgraphs: the complexity of rules and constraints”一文系统地研究了通过限制约束和/或规则的形式而获得的某些特定案例的复杂性,提出了基于规则和约束模型的一系列扩展,将图同态作为基本操作。

未来在知识图谱领域还会面临哪些挑战?

知识图谱作为人工智能技术中的知识容器和孵化器,会对未来AI领域的发展起到关键性的作用。

无论是通用知识图谱还是领域知识图谱,其构建技术的发展和对应用场景的探索仍然会不断的持续下去。知识图谱技术不单指某一项具体的技术,而是从知识表示、抽取、存储、计算、应用等一系列技术的集合。

随着这些相关技术的发展,我们有理由相信,知识图谱构建技术会朝着越来越自动化方向前进,同时知识图谱也会在越来越多的领域找到能够真正落地的应用场景,在各行各业中解放生产力,助力业务转型。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

文本上的算法——深入浅出自然语言处理

文本上的算法——深入浅出自然语言处理

路彦雄 / 人民邮电出版社 / 2018-3-1 / 69.00元

本书结合作者多年学习和从事自然语言处理相关工作的经验,力图用生动形象的方式深入浅出地介绍自然语言处理的理论、方法和技术。本书抛弃掉繁琐的证明,提取出算法的核心,帮助读者尽快地掌握自然语言处理所必备的知识和技能。本书主要分两大部分。第一部分是理论篇,包含前3章内容,主要介绍一些基础的数学知识、优化理论知识和一些机器学习的相关知识。第二部分是应用篇,包含第4章到第8章,分别针对计算性能、文本处理的术语......一起来看看 《文本上的算法——深入浅出自然语言处理》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换