内容简介:由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)将于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来合作报道。SMP 专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。8 月 2 日举行了第十期前沿技术讲习班(ATT 10),此次讲习班邀请四位知名学者围绕网络表示学习、因果推论、
由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)将于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来合作报道。SMP 专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。
8 月 2 日举行了第十期前沿技术讲习班(ATT 10),此次讲习班邀请四位知名学者围绕网络表示学习、因果推论、深度强化学习及数据可视化四个方向进行讲座。讲习班由浙江大学杨洋助理教授担任主席。
在上午的讲习班环节中,北京大学信息科学技术学院的宋国杰副教授带来了《大规模网络表示学习》的分享,围绕网络表示学习的研究展开了详细而系统的阐述。
图片来源:哈工大 SCIR 李家琦
基于现实世界中的大量数据都是以网络形式存在的,尽管目前计算机的算力在不断增强,但考虑到数据的高维性、数据的稀疏性、数据的大体量等多种因素,如何围绕大规模网络数据开展机器学习和数据挖掘研究,也成为了产学高度关注的重要议题。
他首先从线性与非线性的角度回顾了发展历程,并强调了表示学习的研究目标主要集中在两个方面,一个是还原网络原始节点中的关系;另一个是维护节点在网络空间中的性质。他在讲座中还介绍了 Word2Vec、Adjacency-based similarity、LINE 及 Random-walk Approach 等四个经典的表示学习方法。
他结合各项研究的特点做出总结,并从多个方面进行了网络表示学习的进一步延伸,分别从静态数据到动态数据(如 depthLGP、Dynamic Triad Model 等工作)、从节点到社群(如 M-NMF 等工作)、从同质到异质(如 meta path 等工作)等多个方面介绍了一系列代表性进展。
随后,他围绕多层次网络表示学习、动态网络表示学习及基于网络表示学习的实体标准化等三个角度深入介绍团队的相关工作。最后,他建议未来可以围绕 Graph Neural Network、大规模 Network Embedding、拓展 embedding space 等方面展开更多研究。
接下来,清华大学政治学系孟天广副教授带来了题为《计算社会科学新进展:从探索性分析到因果推论》的主题报告。
图片来源:哈工大 SCIR 李家琦
报告伊始,他阐述了大数据分析与因果推论的关系,他表示,大数据分析是以知识发现为导向的,数据挖掘即从数据中自动抽取模式,然后通过解释和评价转换成最终用户可理解的知识。因果推论视角下的大数据分析则包括描述性推论、因果性推论、机制性推论。
他进一步表明计算社会科学中重视因果关系有如下五点原因:一是好奇心驱动,二是解释性知识更关键,三是需要将社科应用到社会场景,四是识别好的因果关系可以帮助我们更有效地做预测,五是要赋予数据挖掘社会意义。
带来计算社会科学方法论的进展之后,他也回应了目前对大数据方法的一些批评,如探究「相关关系」而非「因果关系」,在数据采集过程中涉及到个人隐私保护问题等等。他同时指出,大数据方法也带来了很多机遇。比如数据模态更加多元,是「全量数据」而不是「样本数据」,是「真实数据」而不是「设计的数据」,数据里蕴含丰富的时空信息可以用来做数据融合等等。而在经济上,也具备低成本、时效性和高效率三个特征,此外在学术影响上也极具优势。
此后,他详述了用大数据做因果推论的四个发展方向,一是大数据+计量分析,即用大数据的方法降维、测量,然后再做回归、匹配等,二是大数据+小数据分析,即在大数据里抽取小样本,进一步检验模型假设,三是大数据+时空模型,进行一些因果推断和可视化,四是大数据分析+实验设计。
他表示,在大数据分析、因果推论上有一系列工具:例如统计分析方法,如主成分分析、线性回归、非线性回归、空间计量等,还有一些现场实验、自然实验等实验方法。
在最后,他详述了这四个方向的若干方法和工具,并举了一系列实例,如文本匹配、立案登记制等等。
下午,清华大学计算机系黄民烈副教授分享了《深度强化学习及其在自然语言处理的应用》。他首先介绍了强化学习的基本概念,作为「首个通过交互进行学习的模型」,强化学习通过对策略给予不同的 reward,在试错的过程中达成最优策略。由于具有序列决策、尝试试错、延迟奖励等特点,深度强化学习在游戏、机器人、自动驾驶等多个领域拥有广泛的应用场景。
图片来源:哈工大 SCIR 李家琦
基于 value-based(Q-Learning)、policy based 和 actor-critic 的方法,他对其代表方法及基本思想做出了阐述,他在演讲中也总结了强化学习的主要特点,1)当前决策会影响未来的决策;2)强化学习的训练过程本质上是一个试错的过程;3)以长期 reward 的最大化为导向。
在强化学习应用于 NLP 领域当中,面临离散反馈、action space 的高维性等多种层面的挑战,但在无直接监督信息、弱信号场景中,可以利用强化学习的试错和概率探索能力,通过编码先验或领域知识,进而达成学习目标。相应地,从检索和推理层面,可以借助强化学习进行模型、文本抽取的工作;从样本选择上,可以做样本去噪、标记纠错等工作;另外在策略优化上,也可以进行搜索策略优化、语言生成等探索。
在最后,他总结了强化学习在自然语言处理应用中的关键点,包括 1)将任务转化化自然序列决策问题;2)明确强化学习的「试错」本质;3)在 reward 中加入先验知识的理解;4)在无监督或弱监督的场景下行之有效。但与此同时,我们也应看到暖启动的重要性,此外也应考虑在完全监督及 Large Action Space 问题下效果提升的有限性,在训练技巧及调参上也对研究者提出了更高的要求。
最后一位演讲的嘉宾是同济大学设计创意学院教授、智能大数据可视化实验室主任曹楠,他带来了数据可视化的一系列介绍以及可视化在异常检测中的应用。
图片来源:哈工大 SCIR 李家琦
演讲伊始,他对同济大学智能大数据可视化实验室进行了简单介绍,实验室横跨多个学科,研究领域包括数据可视化、人机交互、机器学习,目前正在招生中。
随后,他介绍了数据可视化的基础概念,可视化一个很重要的功能就是数据解释,当数据量非常大,结果很复杂时,可视化在理解数据中可以发挥重大作用。他表示,广义来讲,任何能创造图像、动画等的技术都可以称为可视化,数据可视化是可视化的一个分支,数据可视化分为三个子领域:科学可视化、信息图,信息可视化,这里重点讨论的是信息可视化。
他举了拿破仑对莫斯科进军路线的一张图来说明可视化的作用,这张图用二维图表一目了然地展现了五六维的信息。他强调,信息可视化不是艺术,也不是计算机图形,也不是处理图像,而是围绕数据,揭示数据真谛。在统计分析时会掩盖数据的真谛,可视化可以帮助从上下文中观察数据。
他提到大数据可视化的三点挑战:视觉混乱、性能瓶颈、人的认知有限。接下来他阐述了创造可视化的几个关键点:理解数据,知道用户和任务;设计要能达到信、达、雅;布局,即解优化方程,但由于时间限制,往往没法得到全局最优解;此外,为了让人们观察到数据的变化,必须有动画。
之后,他介绍了一些流行的可视化开源 工具 包,例如 D3.js, Tableau,在可视化相关知识的学习上,他推荐了《Visualization Analysis&Design》一书。另外,他介绍了可视化相关的重要学术会议,包括 IEEE InfoVis/VAST/SciVis。
在介绍完可视化一系列基础概念之后,他提到用可视化来查找社交媒体中的异常用户,他表示,匿名用户的行为可能会威胁到整个社区,这时候找出这些异常用户意义重大。这时候面临的挑战有两点:很难定义何为正常和异常,很难获得有标签的数据来训练模型。之后,他举了他们实验室在异常检测方面的一连串的工作,研究主要分两个阶段,第一阶段是群体异常行为的分析,第二阶段是个体异常分析,他们此前的相关工作有如 FluxFlow 谣言检测,TargetVue 用户行为画像等。之后,他也介绍了异常检测相关竞赛 Bot Design/Detection。
至此,讲习班内容全部结束,在明后两天,SMP 2018 将迎来六大特邀报告,八大分论坛、技术测评以及口头报告等多项精彩环节,雷锋网 (公众号:雷锋网) 也将持续为大家带来专题报导,敬请期待。 雷锋网
雷锋网原创文章,未经授权禁止转载。详情见 转载须知 。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 『智能图形计算前沿进展与应用』讲习班开始报名
- 会议邀请 | 中国中文信息学会暑期学校《前沿技术讲习班》
- 智能音箱、语音助手太火?或许你该了解下计算机视觉 | CSIG讲习班
- IGAL可视化讲习班:从易用到自动,大数据可视化的下一个十年 – 袁晓如
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。