黄锦辉:自然语言处理方法Social Media

栏目: 编程工具 · 发布时间: 7年前

内容简介:黄锦辉:自然语言处理方法Social Media

黄锦辉:自然语言处理方法Social Media

2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017全球人工智能技术大会在北京国家会议中心拉开帷幕,5月22日上午是自然语言理解分论坛,分论坛主要围绕深度学习在自然语言处理领域、自然语言处理方法、人机对话系统以及智能交互等方面展开演讲。

演讲嘉宾主要有微软亚洲研究院常务副院长、首席研究员、ACL候任总裁周明,香港中文大学创新科技中心主任、香港中文大学工程学院副院长、香港广州创新科技协会会长 黄锦辉, 云知声AI Labs资深技术专家 刘升平,小i机器人研究院常务副院长陈成才。

黄锦辉演讲实录:

大家好!我的普遍话不是母语,但是我在北京也跑了好多年。我今天给大家分享的就是过去五、六年的一些想法,这里有一些是从事实业的,可能觉得这个会有一点虚,可能还没有到落地的时候,希望大家可以给我们一些指正。

我们一直做Social Media。我分三部分来讲,

一、 Introduction , 这是2017年的一些数据,我们做了一个简单的统计。我们2011年的时候,所谓Microblog platforms,就是在WeChat,twitter,etc上。

看一下这个例子,比如李晨跟范冰冰这个例子,有很多不同的信息都出来了,可能没有注意到有很多东西都是没用的,只是跟着讲而已。

Microblog Repost Tree是两块,Structure和Messages。

这是举一个例子。从发起人开始,每一个信息如果合起来,就可以当成Document,每一片是Sentence。

二、NLP is applicable to microblogging。

NLP for Summarization。Discourse是我们会利用的东西。这是有关Sematic。比如有一个社交圈,已经有100人,运行了一个月,两个月,有一个新人进来这个圈,旧的100人突然发了一句“ABC”,对于现有的100个人当然知道是什么意思,但是新进来的人并不一定知道了,如果Summarization存在,就可以解决这个问题。

2013年Chang做过这个方法,认为效果不太好,主要的理由就是太短,噪音太多。

现在怎么做?先是聚类,Event-based,但是没有结构上的关系,只是把同类型的放在一起。

比如一个明星发一个东西出来,因为他是明星,有很多人跟随他,但是他所讲的东西有没有用呢?

我们怎么处理这个事情呢?Some microbloggers(ie leaders)are more influential than others(ie followers)。有一些人提到那些问题,加上新的资料上去,有一串人继续跟着你,我们利用leader follow。既然把leader follow分出来,我提出问题,我回答,我命令你,这些东西其实也不是什么新的东西。

三、我们另外看一个问题,Rumor Detection。 Rumor是个比较麻烦的事情,出来的时候会有很大影响。现在一般来看,只是看每一个词,或者每一个片语,或者是看整个信息的容量资料来判断。在整个过程之中,那些人用的词是会改的。有一个例子给大家看一下,这是Question mark的用途,另外一个是First-person pronoun。根据时间的变动,有新的技术可以帮助你去分析。

Time Series of Microblog Event.

这是Our Contributions.

Time Series Formation.

提问A:您有没有做过话题之间的关联关系这种工作?

黄锦辉:有,我们一开始做的就是两个信息之间的关系…

提问B:微博评论把时间分割了,只保留波峰,波谷去掉了,我觉得这个事情没有说服力,波峰波谷的评论肯定也是有用的,出现波峰波谷会有一定的原因。

黄锦辉:我们碰到的问题,最直接,最自然可以做的…

重磅福利!【 2017中国互联网+新商业峰会 】, 6月15-16日两天3000人次,携程创始人梁建章,嘉御基金创始人、前阿里巴巴CEO卫哲,分众传媒创始人江南春等嘉宾已确认出席,期待你的参与, 限量钜惠 等你拿!

黄锦辉:自然语言处理方法Social Media


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

互联网产品运营:产品经理的10堂精英课

互联网产品运营:产品经理的10堂精英课

丁华、聂嵘海、王晶 / 电子工业出版社 / 2017-5 / 59

《互联网产品运营:产品经理的10堂精英课》共有10章,前9章分别从互联网产品运营的9个点入手,最后一章辅以案例,分析当下市场热门产品的运营模式。 第1章点明在运营产品之前需要经过缜密的策划,这样才能有明确的运营方向;第2章讲述产品运营的定位,有了准确的定位,运营才不会走偏;第3章描述用户运营,用户是一款产品的根本,没有用户,产品就是死的;第4章讲述内容运营的技巧,产品内容要怎么运营才能受到用......一起来看看 《互联网产品运营:产品经理的10堂精英课》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试