内容简介:当地时间2018年10月20日,由国际计算机协会ACM ICMI 2018举办的第六届EmotiW2018 视频情感识别大赛在美国科罗拉多进行了奖项授予。思图场景AI团队在百余支世界顶尖研究机构与院校成绩比拼中脱颖而出,获得了音视频短片情绪分类挑战赛冠军奖杯。本次大赛,思图场景在EmotiW2018的视频情绪分类挑战赛中获得第一名,情绪识别分类准确率比2017年冠军IntelLab高1.53%。
当地时间2018年10月20日,由国际计算机协会ACM ICMI 2018举办的第六届EmotiW2018 视频情感识别大赛在美国科罗拉多进行了奖项授予。
思图场景AI团队在百余支世界顶尖研究机构与院校成绩比拼中脱颖而出,获得了音视频短片情绪分类挑战赛冠军奖杯。本次大赛,思图场景在EmotiW2018的视频情绪分类挑战赛中获得第一名,情绪识别分类准确率比2017年冠军IntelLab高1.53%。
EmotiW2018 音视频组竞赛前10名
在此次国际大赛中,思图场景充分用成绩证明了“以应用场景为基础的研发模式”在人工智能技术发展方面的创新性及有效性,为人工智能技术在应用领域的发展提供了思路。
思图场景AI团队获奖
经过与思图场景AI团队沟通与允许后,下面对其情感识别算法进行一下重要解析与公布:
思图场景情感识别算法采用多种特征融合的方式对视频进行了分类,显著提升了情绪识别的准确率,其整体结构如下:
其算法主要涉及到4个模块,分别是卷及神经网络(CNN)、长短期记忆网络(LSTM)、人脸关键点几何特征和声音特征。这四个不同的特征模块,保证了算法可以学习到视频的多方信息。
CNN和LSTM是两个比较流行的处理视频情绪的方法,他们需要依靠大量的数据支撑,思图场景凭借在情感计算中积累的数据库进行训练深度学习模型预训练。在不同深度学习网络中,视频单帧人脸情绪识别准确率为:
Network |
Inception-V3 |
DenseNet-121 |
DenseNet-161 |
DenseNet-201 |
预测准确率 |
82.79 |
83.86 |
83.27 |
79.75 |
运用人脸图片预训练的深度学习模型,进行时视频情绪分类的结构如下,其中具体用到了两种方式对提取的CNN特征进行归一化:
除此之外,思图场景还运用了工程上经过验证的方法:关键点欧式距离,该方法提取了一些人脸的高级特征,运用关键点的几何变化来预测情绪变化。该方法证实可靠高效,并且不需额外数据集训练,对结果有很大影响。其程序为:人脸3D关键点检测,3D特征提取,取平均值,标准差和最大值,SVM分类器的训练。具体流程如下:
在音频方面,思图场景首次运用SoundNet的结构来对声音进行预测:
通过上述多种算法模块融合,思图场景在EmotiW2018上最终的准确率为61.87%。
Item |
Result |
Baseline |
40.47 |
Emotiw2017 1 st IntelLab |
60.34 |
Emotiw2018 1 st SituTech |
61.87 |
其对应的多种情绪混淆矩阵如下表:
这表明,思图场景自身的算法及海量数据集对视频情感分类的效果提升明显,尤其是在判断开心、生气和中性非常明显,其可靠类别的分类情况已经达到商用落地的水平,可在一定应用环境下更真实的“体会”用户的意图,进而促进视觉理解、人机交互技术在场景应用层面的发展。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 亮风台2D AR算法新突破,夺冠世界权威评测 | ICRA 2018
- Java 跌落神坛,Python 继续夺冠....凭啥?
- 商汤科技62篇论文入选CVPR 2019!多个竞赛项目夺冠!
- DeepMind 团队 CASP 夺冠:用 AlphaFold 预测蛋白质结构
- TechCrunch 黑客马拉松香港站圆满收官,CYDA 团队精彩夺冠
- 程序员在业余时间最喜欢使用的编程语言排行,Rust 夺冠!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。